一般情况下我们采集的网站都是get请求,因此可以字节打开网址获取页面源代码,然后根据源代码匹配要采集的字段即可。但是如果网址请求的方式是post模式,这种处理方法显然不可行了。那么如何使用火车采集器V9,采集POST请求的数据呢。下面我们用一个案例来进行详细的讲解。案例网站:http://www.mornsun.cn/html/selection.html
采集内容:如下图
网站分析:
通过点击页面分页,发现网址并无变化,说明这不是真实的数据列表地址,那么就需要通过抓包软件Fiddler来抓包分析了。具体如何使用Fiddler来进行抓包,回头会进行单独的讲解。希望可以对本网站进行关注,如果实在不会用Fiddler,也可以考虑使用火狐浏览器带的开发工具来进行分析地址变化。
打开抓包软件,点击分页,通过抓包软件获取到的信息我们可以分析得出,该页需要使用POST功能,才能获取到数据。如图:
图中1处是找到对应的数据存在的网址,不确定的话可以多试,一般做得多了一眼看就知道哪个,可以通过图上2处来确认是不是数据网址,能在2处看到需要的数据就是正确的了。
然后通过图中3位置来查看网址请求类型和cookie。我们可以看到应该网址是POST类型,图中4处就是要Post的参数值。接下来我们需要复制该Post网址:“http://www.mornsun.cn/index.php?c=selection&a=search”到采集器软件起始网址中,如图:
设置POST需要点击高级模式,然后我们添加一级列表,这里还是获取内容页网址规则,内容页的网址规则通过抓包获取,参照上面抓包的图中2位置,可以通过此源代码找出内容网址规则。
接下来是Post设置,上面讲到图中4处是post参数值,现在我们需要将那串参数值复制,也就是“page=2&keywords=&pid=2&Package=&OutputPower=&NoofOutput=&VoutVDC=&VinVDC=&IsolationVDC=” 复制到采集器中,我们需要将其中的分页参数2改为变量[分页],然后设置页码数,这样Post就设置好了,如下图:
当然这只是一个最简单的一个post案例,复杂的会有更多的参数和变量,但是最基本的原理还是这样的,最主要是要学会抓包分析。有时候可能不知道哪个参数是分页数,可以多抓几个页面,将参数复制到记事本进行对比,一般面码的数字变化是很有规律的,通过对比找到规律就知道哪个参数是分页值了。
如果你看完上面的讲解内容之后,依然对火车采集器V9,采集POST请求数据有疑问。可以直接联系站长进行咨询,站长会对你提出的问题,最快给出答案。
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
暂无评论内容