有一些网站因为特殊需求使用了伪静态或者使用了301跳转,那么对于这种采集到的网址跳转后的链接内容如何采集?火车采集器是否支持这种采集方式呢!举例说明:比如我采集的文章里面的内容有网址www.abc.com/,实际上打开www.abc.com 最终是跳到www.1234.com的,如何直接采到内容www.1234.com这个链接。
有多放处理方式来处理遇到的这个问题,这种问题也由不同情况构成。如果跳转前的链接和跳转后的链接有重合部分或者有规律,可以考虑直接在采集的时候拼接成跳转后的链接地址当成内容页进行采集即可。如何拼接地址我们会在别的文章里面进行更加详细的讲解,这里不再详细说明。
如果跳转前的地址和跳转后的地址没有规律,可以考虑使用多页采集,将先采集到的网址作为一个标签来处理。之后在标签处理那里设置HTTP请求,提取请求后的内容得到请求后网址。之后使用多页采集将该页当成详情页来进一步采集下面的内容即可。多页采集如何设置可以参看网站其它相关教程。
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
有问题及时联系站长,QQ:1240555208
更多优质资源在QQ群里,可以进群领取:467392290~
© 版权声明
THE END
暂无评论内容