6年+开发经验,持续使用Python语言进行数据分析和建模工作,主要的技术能力如下:
1)熟练使用Linux命令、hdfs命令;
2)熟练使用hive编程,熟练使用hive sql;
3)熟悉Mysql/SQL Server/Postgre等多种数据库;
4)熟练使用Python的Numpy、Pandas、Matplotlib库进行数据分析建模;
5)掌握随机森林、Xgboost、Adaboost、DBSCAN、K-means等机器学习算法,熟练使用keras、tensorflow等深度学习框架。
1、人流预测模型
开发工具:hive+pycharm+mysql
开发语言:hql+sql+python
项目描述:基于历史人流数据,以及节假日、天气等多维度数据预测未来三小时人流量数据。解决旅游数据下发不准确、延迟高等问题,先后支撑项目金额达千余万。
主要职责:
1)数据库的搭建与开发,天气数据的爬取处理,并导入数据库;
2)节假日数据标注并形成one-hot编码;
3)人流量预测模型的开发。(LSTM)
2、基于基站位置数据的人群运动驻留判别模型
开发工具:hive+jupyter
开发语言:hql+python
项目描述:基于基站位置数据,判定用户的运动静止状态,并找出其驻留点。解决基站数据切换快、干扰数据多、乒乓效应强的问题,形成底层驻留表,支撑公司数百个项目。
主要职责:
1)利用前后位置点形成的角度+驻留时间+连接次数对位置数据进行过滤;
2)数据量少时,采用geohash编码算法判断运动静止;
3)数据量多时,将时间维度考虑在内,采用DBSCAN建立聚类模型。
3、敏感人物及敏感标识排查系统
开发工具:pycharm
项目描述:为电视台采编、播出入库等业务流程开发的目标人脸和目标标识检测识别系统。项目主要包括人脸识别和标识识别两部分,最终获取收入200余万元。
主要职责:1)视频切帧算法的开发与优化;(OpenCV、FFmpeg)
2)人脸检测部分的开发;(SSD+MobileNet进行人脸检测,Dlib进行关键点定位)
3)人脸识别部分的开发;(Inception-ResNet-V1、AMsoftmax算法对脸部图像生成特征向量)
4)敏感标识的标注工作;(LabelImg)
5)敏感标识识别算法的开发。(Yolo)
4、交通运输部交通大屏项目
开发工具:hive+pycharm
开发语言:hql+python
项目描述:以海量信令数据为基础,与国家发改委和交通运输部发布的日客运量数据等官方数据融合,形成全国客流大数据监测分析与决策支持平台,先后支撑3年,获取收入200余万元。
主要职责:
1)负责制定春运期间各项统计指标口径,如返程率、返乡人口、空城率、复工率等等;
2)根据制定的口径开发数十个数据模型,数据存储在hive仓库中;
3)将数据推送至mysql数据库,实时监测。
5、基于移动通信大数据的灾区人口受灾情况评估方法研究
开发工具:hive+jupyter
开发语言:hql+python
项目描述:国家应急管理部减灾中心课题,基于移动通信大数据对地震、爆炸、煤矿失事、洪涝等灾害后相关地区做灾情统计分析,获取收入近300万元。
主要职责:
1)人群基础属性统计分析;(年龄、性别、消费状况等属性的分布)
2)受灾前后的人群属性变化分析;(运动距离、上网流量、所关注APP类别的变化)
3)疑似伤亡人群统计分析;
4)疑似失联人群统计分析;
5)拨打救援电话人群统计;
6)人群聚集地统计;(将受灾地区以500m半径的六边形栅格铺满,统计每个栅格的人流变化)
7)撰写报告,项目完结良好。
项目描述:基于京东商城、中关村在线等网站手机及泛智能终端的价格、销量,来辅助商户决定要上架的商品及定价。 主要职责: 1)爬虫获取京东商城、中关村在线等网站热销手机品牌、机型(按颜色内存等属性区分不同款)的销量和价格信息; 2)爬虫获取京东热销泛智能终端品牌、型号的销量和价
项目描述:基于位置大数据,判定用户的运动静止状态,并找出其驻留点。解决基站数据切换快、干扰数据多、乒乓效应强的问题。 主要职责: 1)对原始数据进行数据清洗等工作,包括填充空值、过滤脏数据等,过滤脏数据使用的方法包括前后位置点形成的角度限制、驻留时间限制、连接次数限制等;