具备面向对象的设计思路和经验,熟悉软件开发流程、体系结构,具备较好的文档能力及良好的编码风格;
具备良好的表达和沟通能力,能充分理解用户需求和功能描述;
熟悉数据库知识,熟悉SQL Server/Oracle/MySql相关技术及工具;
熟悉HTTP传输协议,精通网页抓取原理及技术,能模拟浏览器操作爬虫,熟悉JS逆向、APP逆向;
设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
能独立解决实际开发过程碰到的各类问题;
熟悉行为验证码识别、模拟登陆、数据清洗、去重、入库等;
熟悉数据挖掘、机器学习、数据建模。
1.抓取网易云音乐的歌单评论并做词频分析
2.增加央视频特定视频的播放量
3.抓取抖音弹幕评论并进行词频分析
4.抓取得物商品信息
5.抓取微信公众号文章评论并作分析
6.爬取知乎用户信息以及人际关系
7.爬取Bilibili用户信息
8.爬取新浪微博用户信息