会员

抽奖

加盟

客服

点击联系站长

在线时间
12:00 - 22:00

关注微信公众号

关注微信公众号

交流QQ群

网站地址 vip.lzzcc.cn

TOP

火车采集器如何处理特殊的列表页地址？-大海资源库

火车采集器如何处理特殊的列表页地址？

大海资源库

3个月前更新

02217

火车采集器新版V9新增了一个特别重要的功能，这个功能在处理一些特殊情况时，非常有必要。尤其是在处理返回内容格式是jison格式，或者是其它非html格式的数据。可以把一些不规则的列表地址，处理成正常地址。这个新增的功能就是“列表页地址处理”功能，如果有需要使用这个功能的用户，可以看下这篇文章，会对你有很大的帮助。

开始讲解之前，我们找到了一个用来测试的地址：https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

进入页面后翻页后，可以进行抓包后获取到存放数据的实际地址：

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

分析json数据可以得知 url 后面的是内容页网址，设置如下：

火车采集器如何处理特殊的列表页地址？ 1 - 大海资源库

此网址采集需要设置头信息 Referer: https://news.sina.com.cn/roll/ 。头信息的获取可以参考此教程：点此跳转>>

可以看到采集的网址里有很多 \\ ，导致网址无法访问，而且网址不规则，不易处理。

火车采集器如何处理特殊的列表页地址？ 4 - 大海资源库

这种可以使用新增的“地址处理”功能

1. 内容替换/排重

可以对网址中内容进行替换，且替换完成后，重复的网址会自动去重。

火车采集器如何处理特殊的列表页地址？ 5 - 大海资源库

火车采集器如何处理特殊的列表页地址？ 6 - 大海资源库

2. 纯正则替换

可以使用正则表达式进行匹配，和内容替换功能类似

3. 字符编码处理

网址中有需要转码的内容，比如采到的链接里有 & 可以进行解码

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&amp;k=&num=50&page=1

如果你还有其它疑问可以来本站搜索相关问题，这里会有你想要的答案：大海资源库

有问题及时联系站长，QQ：1240555208

更多优质资源在QQ群里，可以进群领取：467392290~

© 版权声明

本站资源大多来自网络，如有侵犯你的权益请联系管理员 E-mail： 1240555208@qq.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用，未经原版权作者许可,禁止用于任何商业途径！请在下载24小时内删除！

如果遇到付费才可观看的文章，建议升级终身VIP。全站所有资源 “任意下免费看”。本站资源少部分采用 7z压缩，为防止有人压缩软件不支持7z格式，7z 解压，建议下载 7-zip ，zip、rar 解压，建议下载 WinRAR 。

THE END

采集教程
# 采集 # 原创 # 火车头 # 解说

及时反馈~ 抢沙发

请登录后发表评论

暂无评论内容

关于我们

特色功能

用户服务

Copyright © 2023 - 2024 大海资源库・Vip.lzzcc.cn 苏ICP备2024109296号-1・苏公网安备32040002010412号

火车采集器如何处理特殊的列表页地址？-大海资源库