过早客
  • 首页
  • 节点
  • 成员
  • 广告投放
  • 登录
  • 注册

如何优雅的爬取一个网站

IT技术 • ihuster • 发表于 6 年前 • 最后回复来自 david56083 • 6 年前

最近几天深入学习了一下scrapy框架,对scrapy整体流程有了一定了解,然后就想写爬虫获取数据,从单纯的技术角度来说,不论是否使用框架,遍历整个网站都不是特别难的事。

关于如何反爬虫的问题,始终想知道一个万全之策,可以顺利的把某一个网站爬取下来,lz反而觉在一个爬虫项目中,爬虫的基本解析技术可能仅仅占10%,而90%的策略/难度都用于反爬虫上了,所以别想知道,这一块,在生产环境中和个人开发者里边,反爬虫这一块(lz认为主要是ip问题),一般是如何具体实现的

lz的目的不是爬几百个G的数据,用在商业上,没有那么大,就是出于兴趣,爬一个网站,比如知乎,能够顺利的爬个几十万数据就不错了,然后分析一下就够了。

加入收藏 新浪微博 分享到微信 ❤赞 3285 次点击 0 人赞 0 人收藏

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

共收到1条回复
david56083 6 年前 #1 赞 0

知乎基本上都有接口,分布式或换IP应该都可以,你可以试下每分钟多少次请求后被403,然后不超过就行。然后换IP的同时,可以把user-agent也换下,我记得有开源项目,如果找不到,你多找几个user-agent,然后用的时候random.choice即可。

请绑定手机号后,再发言,点击此处
Guozaoke.com—源自武汉的高端交流分享社区
相关主题
求推荐一个AI智能体客服
EDA断供
请问大家都是通过哪些好用的链接访问GPT
有多少人知道华为在AI算力的基础建设上已经超越英伟达了?
最近时间少了, 隔了这么久, 才做了一个网站
Android手机推荐
请教机器学习人工智能的一个技术问题
搞了个AI 生图的网站,不需要登录,永久免费
[第二波送码]动动嘴皮,AI秒出图!2025最炸裂图标神器:免费生成+手机实时预览
我没房子的时候,每年赚的钱比不上房子每年涨的钱。等我咬牙买了,每年赚的钱,比不上房子每年亏的钱

过早客微信公众号:guozaoke • 过早客新浪微博:@过早客 • 广告投放合作微信:fullygroup50 鄂ICP备2021016276号-2 • 鄂公网安备42018502001446号