在采集复杂网站和复杂数据的时候,我们经常会遇到需要采集到的数据往往不会在一个页面当中,那么遇到这种问题一般的采集软件可能就无法处理了。但是火车采集器就可以针对这种情况进行采集,那么我们如何使用火车采集器V9来实现多页采集呢。下面就给你介绍一下才步骤和实现方法。今天在这里以采集安居客小区信息为例讲解火车采集器V9的多页设置。因为主要讲解多页,案例中的其他设置略过!
我们要抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图:
通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到该ID值
通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图:
首页我们要添加多页,在内容采集规则步骤中左侧下方有个关联多页,我们点击+号进行添加多页
获取多页网址和获取内容页网址原理一样,也是通过源码找出规则。因在内容页中并没有完整的该多页的链接,但可以采到网址中的ID参数,于是我们只需获取到ID即可,然后拼接出多页网址,参照下图:
起一个名称,保存多页,下一步我们就可以通过此页获取房源数量
添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
暂无评论内容