数据获取:掌握python的应用,熟悉Scrapy爬虫框架,熟悉Selenium的使用,熟悉BS4、xpath、正则等页面解析技术,掌握一定逆向技术,如app逆向、js逆向、hook注入。
数据处理及可视化;可使用Numpy、Pandas、Matplotlib、Pyecharts对数据进行处理、清洗,再进行数据可视化操作。
数据库:掌握数据库操作,具备对数据进行查询、提取的能力。
深度学习:了解tensorflow使用,了解深度学习相关算法,如:LSTM、CNN、RNN等。
前端:了解 Html,Css,JavaScript 的语法规则,掌握Flask框架,能够进行网页编写。
项目简介:采集社交平台、新闻媒体信息,包括用户信息、发布的文章、视频信息、评论信息,模型预测是否会成为热点事件,是否产生重大影响。
项目技术点:python、requests、re、js逆向、app逆向。
个人职责:
单向认证、自定义协议app抓包,charles抓包分析
解决反爬,webpack、jsvmp等逆向分析,解决登录获取cookie
针对反爬虫的策略,使用代理ip、用户代理等技术反制
通过分析页面结构,实现数据解析和清洗,将数据格式化保存
对数据进行监控和更新,确保数据的准确性和及时性