火车采集器在2020年6月15号更新了V9.20版,在这次的版本更新中新增了一个自动更新cookie功能。功能还比较实用,在被IP被封禁,或者特定的网页一定要有cookie才能正常采集页面。这时可以先获取cookie,再进行页面采集。但经过测试发现功能还是不是很完善,下面使用例子安心加盟网:https://www.axjm.com/ 来进行测试,并且说明下过程中发现的问题。
1、建立好的采集任务在其它设置最后一行有更新cookie功能设置选项,打开页面之后如下图所示,可以参考下图来进行设置,不同的网站被封禁时会有不同的返回码,可以根据需要来进行设置。当然也可以根据数据返回的大小来进行设置。设置好之后保存任务,在任务列表开始任务运行。这里没有测试是和官方客服沟通时,客服说目前该功能单独测试不能用,整体运行才可以生效。
2、运行任务之后并没有采集到数据,而是弹出了错误提示:未将对象引用设置到对象的实例,然后下面是一堆错误的代码,这个大多数用户应该都看不懂。由于这个任务是从别的任务复制过来,所以又复制了一下任务,运行后仍然有该错误提示。新建一个任务后使用任务批量编辑的功能把先前的任务设置复制过来后,整体运行任务后错误提示没有了,但是数据仍然不能采集到。
3、运行后设置的自动更新采集Cookie没有触发,设置的采集判断字符串和请求内容长度没什么用。这个时候是有使用http代理,但仍然不能正常请求数据。
4、在编辑任务页面进行采集测试后发现可以正常采集到数据,具体情况如下图。最后又重新建了一个任务,然后除了采集字段用的之前任务设置,其它任务全部重新写。测试通过,数据也可以正常采集。但是目前这个功能仍然有很多问题。
总结发现的问题:
a、如果服务器没有响应,这个时候设置的错误标志和内容返回大小并没有起作用,设置不会生效。
b、最重要的问题,该功能在获取cookie时的请求页面不会走http代理,如果需要使用代理只能用全局代理。什么是全局代理,现在一般购买的代理软件(直接安装在电脑上有页面的那种代理软件如:ET代理,芝麻代理软件,熊猫代理等等)。另外还可以在Internet设置局域网设置那里设置代理,注意这里设置的代理浏览器不能使用火狐代理,可以使用谷歌内核的代理。
c、总的来说功能很好,但是目前还不完善,毕竟一般IP被封禁之后才考虑使用cookie。但是获取cookie时不走代理,这功能还要怎么用,希望官方可以在后面进行改进吧。
声明:本文由大海资源库原创内容,没有授权或者标明出处,严谨转载。
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
暂无评论内容