使用Redis记录用户日志,并转存到HBase中;
2.通过装饰器布置UA检测和用户行为检测(使用Redis存储IP封禁状态);
3.使用pywin32清洗Word离线数据(约25GB),使用pandas清洗Excel离线数据(约10GB),分析获取数据做进一步使用;
4.使用Hive做用户日志清洗,使用sqoop将清洗数据转存到MySQL中,使用pyecharts做PV,UV,运营指标的展示,并对日志做关联性分析;
5.使用用户简历及日志数据,对用户做分类;
6.使用协同过滤算法(基于岗位)推荐公司招聘信息给用户。