Python : 会使用python 进行机器学习模型搭建,如逻辑回归,KNN,k-means,SVM,决策树等。
会用python 做简单爬虫,目前爬过淘宝评论,京东当当图片,应用宝豌豆荚的app分类等。
用python进行数据清洗分析,会连接数据库,自动发送邮件,操作excel,画图,生成词云等。
SQL:熟练使用mysql,DB2,oracle,postgresql数据库,包括sql语句,存储过程,视图。
Kettle:会安装和配置kettle,新建转换和作业,抽取一种数据库数据表至另一种数据库,并定时插入更新。
BI:熟练使用birt做自动化智能报表。
Linux:会简单常用的linux命令。
一、海量GPS数据挖掘(oracle,python)
1.由于GPS数据每10s一条,数据量过于庞大且质量较差,需要清洗后存储,采用python进行数据数据处理(保留开始停留的第一条数据和停留时间),并保留用户高频停留的经纬度,并利用python爬虫百度API转化为详细,计算与用户住址的距离。
2.设计数据库表,存储数据。
二、评分卡(python,逻辑回归,决策树,K-means)
1.特征工程2.建模3.模型监控,监控模型稳定性PSI,区分度(KS,GINI)
三、BI报表系统开发(mysql,oracle)
通过视图,存储过程搭建常用BI报表,并可视化展现