火车采集器提取字段的方法有好3种,可以使用字段截取,正则表达式,Xpath提取,Json提取4种方式,不同的方式在不同的时候使用才可以最大的提升采集效率。下面就先讲讲如何使用正则表达式提取字段。以这个网址为例:http://www.haimashop.com/thread-28060-1-1.html 采集 标题、正文。
标题由于格式都一致,为了方便我们可以使用字符截取的方式来提取标题。开头字符串:<span id="thread_subject">结束字符串:</span>,之后添加HTML标签过滤,选择内容过滤规则为内容不重复即可。
下面我们着重说下内容标签如何使用正则表达式提取。由于页面内容格式比较多,因此为了能更让规则更加统配,所以使用正则表达式中的:(?<content>[\\s\\S]*?)这个方法,这个可以使用纯正的正则,以便可以更加精确的提取到数据。这个内容页的正则表达式可以使用:<div class="t_fsz">(?<content>[\\s\\S]*?)(?:</span>相关阅读:|</table>)注意提取完成之后,为了发布到网站后格式不错乱,可以正常下载到图片,还需要对提取的内容进一步数据处理。数据处理常用的方式也是正则替换和内容替换,后面会有文章进行更加详细的说明,如果你需要这个规则,可以直接下载。
http://www.huochejiaoben.comhttps://www.huochejiaoben.com/uploads/soft/200208/1_1115279101.zip
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库
暂无评论内容