C#:掌握C#的基本使用,曾经用C#独立完成过信息系统的设计,网页的设计,搜索引擎的开发,同时熟悉爬虫
Python:熟悉Python的使用,熟练使用其功能以及语言特性,使用Python实现过数据可视化,大型电子商务数据挖掘项目,熟悉numpy,pandas等数据分析挖掘的工具,熟悉python 爬虫,使用python实现过微博爬虫以及结果分析。
mysql:熟悉mysql的使用方法。
C/C++:掌握C/C++的使用和语言模式,熟悉设计模式
基于微博数据的用户上网行为的研究。之所以选择微博来做这个研究是因为微博是一个公开的社交媒体平台,相比于其他的社交媒体平台来说更加方便研究,这个项目的主要流程是:爬取微博数据(从热搜切入,获取热搜下评论者的id,后根据id获取此用户前30条的微博内容),聚类(去停用词,分词,tf-idf计算),结果聚类分析。
基于在线用户行为数据的消费者重复购买研究。此项目是一个电子商务的数据挖掘项目,主要是根据用户的行为日志数据提取特征,然后用逻辑回归模型和XGBoost模型以及融合模型进行预测,最后得出实验结果。此项目是由一定的难点的,主要是数据量大(五千万多条),特征工程的设计,模型的调参;这三个难点我分别采用数据压缩,根据商业逻辑提特征,手工调参和交叉验证的方式来解决,最终取得了比较满意的结果。