下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表
1.获取IP
获取ip有三种方式:
(1)手动添加:可以手动添加不同类型的IP,并添加用户名密码
(2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可
(3)商业代理IP导入
首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一个的IP,将网址放入请求网址中。
解释下此页面中各个选项的含义:
①代理数量:代表保持代理列表中有多少个可用代理IP。
②验证代理可用性:是否要验证代理IP是否可用
③代理更换方式
- 定时 按照一定时间更换代理IP。注意这里,不管代理IP是否还可用,到了设定的时间会清除所有IP重新获取一批。
- 注意:定时获取是按照时间来获取代理IP,不管采集任务是否在运行都会计时,因此需要和代理商确定自己所使用的商业代理是否是获取代理就扣费,还是获取代理使用后才扣费。如果是后者,可以选择不验证代理是否可用,这样可以避免浪费资金。
- 定量 按照代理IP使用次数来定,IP用了一定的次数那么就会清除,重新获取新的IP
- 注意:这里的问题是如果代理还没有到达设置的使用次数,就已经失效,会无法正常切换代理。
- 封禁 如果源码中存在某些字符,则认为该代理IP失效并封禁该代理IP,如果代理IP中的可用IP数量小于设置的代理数量,则再获取一批IP,上次获取的可用IP并不清除。多个条件可以用 | 符号间隔。
- 注意:这个源码说的是连接请求之后的返回结果,也就是打开连接之后得到的返回结果,对这个返回结果做判断即可。如果出现设置的源码后,代理会自动切换一个新的ip。建议尽量使用这个模式,可以省钱。
2.设置代理验证
此代理验证功能是为了验证我们在第一步中获取的代理IP是否有效。
访问地址,我们一般使用采集的网址作为地址。这里注意不要使用容易失效不能访问的地址。
返回字符,填写正常访问情况下源码中会包含的字符
这样,如果代理IP无效,我们访问地址时,是无法返回正确的源码的,我们就会判定这个代理属于不可用。
注意:如果使用百度进行代理验证的话,请使用地址:http://www.baidu.com/ ,如果使用:https://www.baidu.com/ 的话,是无法正常验证代理。所有代理都会不通过。
3.规则中设置代理IP
上面两步设置好之后,我们设置下代理IP的端口号,设置一个不被其他程序占用的端口号即可。一般用默认的8899就行。
接下来,点击启动代理,一定要启动,不然无法调用
然后在规则中调用127.0.0.1:8899,注意这里ip地址127.0.0.1,是固定的,端口号就根据你设置端口号来设置。我们点击[使用采集器二级代理] 会自动填充选项。
然后我们运行任务,可以在日志中看到调用的情况
二级代理就设置完啦~如果你还有疑问的话,可以联系站长,会给你最专业的解答。
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
暂无评论内容