熟悉python语言;
能使用scrapy及selenium框架自动化定时爬取数据及数据处理;
熟练用抓包工具对不同web端网站进行报文分析,找到有用接口从而进行数据爬取;
了解MySQL数据库;
前端方面能依据设计图用HTML、CSS、JavaScript还原模板页面;
前端框架基本使用vue全家桶;
定时爬虫项目
通过不同网站的报文请求的分析及js断点调试,结合scrapy框架和selenium的特点对今日头条、哔哩哔哩、抖音、快手、东方财富等站点的数据爬取、处理及上传。
爬取数据内容形式主要有视频、图片以及文章段落。
数据的处理依据需求分别设置了针对段落文字的过滤词过滤及长度过滤;针对图片的水印过滤裁切;针对视频长度的过滤;
过程中遇到过麻烦的问题有滑块验证、cookie关键加密串验证等,滑块验证曾用添加特殊cookie的方式解决,针对抖音的滑块验证采用cv2识别解决;cookie关键加密串通过js断点调试找到加密方法,特别麻烦的有如抖音的s_v_web_id通过使用selenium模拟解决
作品:定时爬虫、数据处理及上传项目 简介:爬取不同网站指定类型的数据,针对爬取下来的数据进行数据清洗、过滤以及上传。爬取的内容包括有文章内容、段落评论、图片、视频等。完善爬虫及数据处理上传任务后使用thread使任务定时执行。 负责:网站分析、爬虫及数据处理
角色: 前端模板页面还原。 说明: 根据提供的设计图还原响应式模板页面,主要适配手机端及浏览器窗口。