首页 > Python资料 博客日记
【靓小虫】2024抖音采集软件,支持关键词搜索、主页作品、评论采集等一键批量爬取!
2024-08-06 08:00:02Python资料围观225次
一、背景洞察
1.1 爬取目标
您好!我是@马哥python说,一名10年程序猿。图1-抖音
众所周知,抖音是目前国内最火热的短视频社交平台,每天拥有大量用户发布和浏览短视频作品,形成数亿的日活量。平台上各种作品数据、评论数据等也成为众多媒体从业者、数据分析者的分析目标,此类工具有助于用户快速获取目标数据,助力个人创作、数据挖掘、指导决策等日常工作,前景广阔。
基于以上洞察,我用python开发了一套抖音采集软件,起了个可爱的名字,叫"靓小虫"。
功能包括:
- 采集指定关键词的搜索结果,并自动导出csv文件
- 采集指定博主的主页作品数据,并自动导出csv文件;且支持下载对应视频mp4文件到本地
- 采集指定作品的评论数据,并自动导出csv文件
以上。
1.2 结果演示
1.2.1 关键词搜索结果
软件运行界面:
图2-运行界面:采集搜索关键词
采集结果csv:(12个字段:作者昵称,作者粉丝量,用户主页链接,视频文案,背景音乐,视频分享链接,视频无水印地址,视频发布时间,点赞数,评论数,收藏数,分享数)
图3-采集结果:搜索关键词
1.2.2 采集:指定博主主页作品
软件运行界面:
图4-运行界面:采集主页作品
采集结果csv:(11个字段:用户昵称,视频文案,视频时长,背景音乐,分享链接,视频地址,发布时间,点赞数,评论数,收藏数,分享数)图5-采集结果:主页作品
下载视频mp4文件:
图6-下载作品MP4文件
1.2.3 采集:指定作品的评论
软件运行界面:图7-运行界面:采集作品评论
采集结果csv:(9个字段:昵称,评论内容,主页链接,头像链接,发布日期时间,评论点赞量,IP,评论者标签,评论id,回复量)图8-采集结果:作品评论
1.3 演示视频
软件使用演示视频:【靓小虫】抖音爬虫软件,一键批量采集
二、功能介绍
2.0 用户登录
首先,登录软件,界面如下:图9-用户登录
第一次登录,请先点击【注册】按钮,注册完之后,就有了账号和密码。
然后点击下方的【卡密购买】按钮,选择适合自己的收费方式,获取卡密。
2.1 配置cookie
软件登录成功之后,点击左下角的设置按钮,扫码登录抖音,如下:图10-扫码登录DY
扫码完成后,软件会自动配置好cookie,非常方便!
2.2 采集关键词搜索结果
点击左侧导航栏,进入【关键词搜索】菜单,输入关键词和页数,点击【搜索】按钮,开始采集。如图2所示。
采集完成后,点击【导出】按钮,会把采集结果自动导出到csv文件,目录:./Result/关键词/关键词.csv
采集结果csv如图3所示。
采集字段12个,含:作者昵称,作者粉丝量,用户主页链接,视频文案,背景音乐,视频分享链接,视频无水印地址,视频发布时间,点赞数,评论数,收藏数,分享数。
2.3 采集指定博主主页作品
点击左侧导航栏,进入【视频解析】菜单,输入主页链接和页数,点击【解析】按钮,开始采集。如图4所示。
①导出csv数据
采集完成后,点击【导出】按钮,会把采集结果自动导出到csv文件,目录:./Result/用户主页/作者昵称.csv
采集字段11个,含:用户昵称,视频文案,视频时长,背景音乐,分享链接,视频地址,发布时间,点赞数,评论数,收藏数,分享数。
采集结果csv如图5所示。
②下载视频MP4文件
采集完成后,选中需要下载的作品,点击【下载】按钮,会把视频MP4文件自动下载到本地,目录:./Result/用户主页/视频/作者昵称/作品名称.mp4
采集结果csv如图6所示。
2.4 采集指定作品的评论
点击左侧导航栏,进入【评论解析】菜单,输入分享链接和页数,点击【解析】按钮,开始采集。如图7所示。
采集完成后,点击【导出】按钮,会把采集结果自动导出到csv文件,目录:./Result/评论/视频id.csv
采集结果csv如图8所示。
采集字段9个,含:昵称,评论内容,主页链接,头像链接,发布日期时间,评论点赞量,IP,评论者标签,评论id,回复量。
注意,当前版本评论采集不包含二级评论,仅包含一级评论。
三、付费说明
软件定价如下:
图11-软件收费
费用详细说明:
- 卡密说明
体验卡:使用期限1小时,4.9元。体验卡仅能购买一次。适合试用软件等临时需求
月卡:使用期限1个月,149元。月卡可多次购买。适合短期采集需求
季卡:使用期限3个月,399元。季卡可多次购买。适合中期采集需求
年卡:使用期限1年,1499元。年卡可多次购买。适合长期采集需求
- 一机一码
软件采用一机一码机制,一个卡密只能在一台电脑运行、不可多电脑运行。 - 软件多开
一台电脑仅允许运行一个软件,不支持软件多开。
四、软件获取
完整exe采集软件,微信公众号"老男孩的平凡之路"后台回复"靓小虫"获取。
我是@马哥python说,一名10年程序猿,持续分享Python干货中!
标签:
相关文章
最新发布
- 【Python】selenium安装+Microsoft Edge驱动器下载配置流程
- Python 中自动打开网页并点击[自动化脚本],Selenium
- Anaconda基础使用
- 【Python】成功解决 TypeError: ‘<‘ not supported between instances of ‘str’ and ‘int’
- manim边学边做--三维的点和线
- CPython是最常用的Python解释器之一,也是Python官方实现。它是用C语言编写的,旨在提供一个高效且易于使用的Python解释器。
- Anaconda安装配置Jupyter(2024最新版)
- Python中读取Excel最快的几种方法!
- Python某城市美食商家爬虫数据可视化分析和推荐查询系统毕业设计论文开题报告
- 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Python与PyTorch的版本对应
- Anaconda版本和Python版本对应关系(持续更新...)
- Python pyinstaller打包exe最完整教程
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj