LittleCrawler – 多平台社交媒体爬虫

LittleCrawler(小爬虫),支持小红书(xhs)| 知乎(zh)| 闲鱼(xy)平台的公开信息抓取。

项目介绍

一个基于 Python 的通用型社交媒体数据采集框架,主要面向小红书、知乎、闲鱼等平台的公开内容抓取。

它支持关键词搜索、详情页采集和用户主页采集等多种模式,能够批量获取笔记、文章、商品及作者相关信息,并将结果输出为 CSV、JSON、Excel 或存入数据库。

项目截图

run.jpg
start1.jpg

项目架构

├── main.py                  # 程序入口
├── config/                  # 配置文件
├── src/                     # 核心源码
│   ├── core/                # 核心模块(基类、命令行、上下文变量)
│   ├── platforms/           # 平台爬虫实现
│   │   ├── xhs/             # 小红书爬虫
│   │   ├── xhy/             # 小黄鱼爬虫
│   │   └── zhihu/           # 知乎爬虫
│   ├── storage/             # 数据存储层
│   │   ├── base/            # 通用存储(DB、Excel、MongoDB)
│   │   ├── xhs/             # 小红书存储实现
│   │   ├── xhy/             # 小黄鱼存储实现
│   │   └── zhihu/           # 知乎存储实现
│   ├── models/              # Pydantic 数据模型
│   ├── services/            # 服务层
│   │   ├── cache/           # 缓存(本地/Redis)
│   │   └── proxy/           # 代理IP管理
│   └── utils/               # 工具函数
├── api/                     # Web API 后台
├── web/                     # 前端界面
├── tests/                   # 测试用例
├── docs/                    # 文档
├── data/                    # 数据输出
└── libs/                    # 第三方依赖(JS)

支持平台

平台代号功能
小红书xhs笔记、详情、作者
小黄鱼xhy商品、笔记、作者
知乎zhihu文章、详情、作者

下载地址

© 版权声明
THE END
点赞10分享
及时反馈~ 共6条

请登录后发表评论