1.使用Python 使用Scrapy框架、request、selenium对PC web网站数据爬取;
2.使用Airtest控件方式获取APP页面数据;
3.使用mitmproxy代理抓包方式抓取 APP 数据爬取;
4.使用Python 进行数据清洗、对数据进行处理和分析;
1.使用Airtest 抓取支付宝 口碑 美食数据,包含店铺名称、美食分类、评分、评价量、人均消费、店铺地址;
2.使用mitmproxy 代理抓取抖音APP用户数据,包含账户名、抖音号、认证信息、视频量、粉丝量、点赞量,以及每个视频的发布时间、点赞数、评论数、分享数;
3.使用Python scrapy框架、request库 抓取百度医典、百科名医网(PC端)、百科名医网(APP端)、好大夫、京东健康的医院、医生、疾病词条数据;
抖音APP账户数据及视频数据爬取,独自完成了代码的开发、数据爬取以及数据的处理工作; 账户数据:抖音号、昵称、性别、认证信息、简介、获赞量、点赞量、关注量、粉丝量、作品量等数据; 作品数据:作品发布时间、作品描述、点赞数、评论数、分享数、下载数、转发数。
独自完成网站数据爬取的代码开发、数据处理工作 1.百科名医网的疾病词条数据爬取; 2.医生数据爬取