收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
最新资讯 >

爬虫技术使用代理IP的技巧

来源:互联网

作者:zlDL@bian10

发布时间:2021.06.08

  一般来说,Python爬虫程序很多时候都要使用代理IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下爬虫技术使用代理IP的技巧。(推荐智连代理注册科免费使用)


u=2292836788,1263513589&fm=26&gp=0.jpg


  划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。


  接着把IP地址以字典的形式放入其中,这个IP地址是我胡编的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在智连提取的端口为准。


  接着再用build_opener()来构建一个opener对象。


  然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。


  当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。


  设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。


  最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选智连代理。