提取标签的方法之正则表达式提取？-大海资源库

火车采集器提取字段的方法有好3种，可以使用字段截取，正则表达式，Xpath提取，Json提取4种方式，不同的方式在不同的时候使用才可以最大的提升采集效率。下面就先讲讲如何使用正则表达式提取字段。以这个网址为例：http://www.haimashop.com/thread-28060-1-1.html 采集标题、正文。

标题由于格式都一致，为了方便我们可以使用字符截取的方式来提取标题。开头字符串：<span id="thread_subject">结束字符串：</span>，之后添加HTML标签过滤，选择内容过滤规则为内容不重复即可。

下面我们着重说下内容标签如何使用正则表达式提取。由于页面内容格式比较多，因此为了能更让规则更加统配，所以使用正则表达式中的：(?<content>[\\s\\S]*?)这个方法，这个可以使用纯正的正则，以便可以更加精确的提取到数据。这个内容页的正则表达式可以使用：<div class="t_fsz">(?<content>[\\s\\S]*?)(?:</span>相关阅读：|</table>)注意提取完成之后，为了发布到网站后格式不错乱，可以正常下载到图片，还需要对提取的内容进一步数据处理。数据处理常用的方式也是正则替换和内容替换，后面会有文章进行更加详细的说明，如果你需要这个规则，可以直接下载。
http://www.huochejiaoben.comhttps://www.huochejiaoben.com/uploads/soft/200208/1_1115279101.zip

如果你还有其它疑问可以来本站搜索相关问题，这里会有你想要的答案：大海资源库

有问题及时联系站长，QQ：1240555208

更多优质资源在QQ群里，可以进群领取：467392290~

本站资源大多来自网络，如有侵犯你的权益请联系管理员 E-mail： 1240555208@qq.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用，未经原版权作者许可,禁止用于任何商业途径！请在下载24小时内删除！

如果遇到付费才可观看的文章，建议升级终身VIP。全站所有资源 “任意下免费看”。本站资源少部分采用 7z压缩，为防止有人压缩软件不支持7z格式，7z 解压，建议下载 7-zip ，zip、rar 解压，建议下载 WinRAR 。

THE END

提取标签的方法之正则表达式提取？

请登录后发表评论

大海资源库・vip.lzzcc.cn

关于我们

特色功能

用户服务

公众号

大海资源库最新的更新动态~

万兆网盘更新目录

美化教程

子比主题精品美化教程分享，萌新变大神

大海库-建站笔记

单机游戏

海量3A单机游戏，上千G网盘整合~

站内游戏库

TR-GAME

精品文章等您来关注