数据采集:
1、Python(Selenium,js2py)
2、mysql /mongdb(实现网页数据实时存入数据库)
3、签名加密算法破解
4、模拟登陆
5、动态渲染,获取js文件(对于动态渲染网页,Selenium +浏览器可实现模拟操作)
6、抓包,抓取APP的内容信息
7、ip代理,反反爬虫
以上都是在工作中实际碰到并解决的事情
数据挖掘分析
1、回归建模
2、单因素,多因素相关性分析
3、各种聚类
5、机器学习技术
1、七麦网站关键词排名,以及多个APP下的关键词覆盖,榜单等,对于七麦网站任何数据都能够采集得到(破解签名加密算法,js 文件获取,Python网页解析,获取内容信息和用户信息,导入数据库或excel和txt)
2、数据分析,从海量的数据中挖掘用户行为规律,为产品经理提供优化方向
3、EXCEL自动报表,使用EXCEL自带的函数,自动制表制图
4、App Store的排名算法研究,节约aso方面积分墙大量成本,优化已有的APP以及新APP上线
数据爬取;各国的榜单数据,关键词下APP,以及APP的覆盖关键词等,可全站爬取 作品难点:IP限制,cookie限制,headers限制,以及链接中的加密字段解码(利用js) 作品内容:每日定点定时爬取各国各产品(包括我司和竞对产品)在一些带量关键词下的排名,并且上传至数据库
数据需求:帖子,用户,回答等,和点赞收藏等指标数据 作品功能:对需要的帖子/文章/视频等,抓取详细信息包括具体内容和平台指标,并分析各类型的质量 角色:个人独立完成
数据需求:app全部目标信息,包括用户,时间,内容,打卡情况等 作品功能:获取app下全部目标信息,并输入数据库 作品难点:抓包,IP封锁,cookie封锁,高并发查询和高并发输入数据库,多进程 角色:独立完成