收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
最新资讯 >

如何解决爬虫被封代理ip的问题

来源:互联网

作者:zlDL@bian10

发布时间:2021.10.14

  我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,例如被封IP,那我们要如何解决http爬虫被封代理ip的问题呢?


  如何解决爬虫被封代理ip的问题


  方法1.


  不管你要采集什么样的网站,http代理ip一定是必须品,但是要注意的是一定要使用国内代理服务器ip,可以直接使用ip在线代理地址上面直接购买。但是一定要靠谱。这样做的优势是:


  第一,程序逻辑变化小,只需要代理功能。


  第二,根据对方网站的不同屏蔽规则,你可以购买不同的ip代理


  第三,假设你目前使用打代理IP被对方的网站屏蔽了,你可以换ip,程序逻辑不需要变化。


  方法2.


  有一小部分的网站的防范措施是比较薄弱的,可以伪装一下从代理IP服务商那里买的IP,修改X-Forwarded-for,即可绕过。


  大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是直接购买飞蚁动态转发的HTTP代理ip。


  方法3.


  ADSL+脚本,监测是否被封,然后不断切换ip


  设置查询频率限制


  正统的做法是调用该网站提供的服务接口。


  方法4.


  1 user agent伪装和轮换


  2使用代理ip和轮换


  3 cookies的处理,有的网站对登陆用户政策宽松些


  友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler