我目前任职广州市小鹏自动驾驶科技有限公司,大数据开发高级工程师。负责公司数据仓库设计开发,自动驾驶功能使用数据分析,大数据平台相关工具开发以及维护。
(1)擅长数据采集,网络爬虫以及验证码识别工作。
(2)擅长数据分析,数据挖掘以及数据建模。
(3)熟练使用python,.net,react以及java等开发语言。
一、数据仓库设计和开发
负责公司自动驾驶平台的数据仓库设计和开发,bi报表开发。自动驾驶功能使用数据分析。
二、深圳市有鱼智能科技公司用户画像:
建立用户标签体系:用户基础标签,用户信用标签,用户行为标签以及用户行业标签。
搭建用户画像系统框架:用户基础数据导入模块-》用户数据预处理模块-》模型搭建、训练模块-》可视化数据功能模块。用户数据特征预处理会根据模型的效果进行特征工程处理。可视化模块可以反馈模型的效果,多维度展示用户的分布情况。
根据业务需求尝试提高入金转化率
利用聚类模型进行用户行为聚类分析。挖掘入金用户和非入金用户中行为相似的用户。
(1)建立了一套较完备的用户标签体系。标签体系采用树状结构,分为:标签元数据表,用户标签关系表,用户标签结果表,用户表。子标签的id保留父标签的id作为prefix。
(2)用户画像系统框架:用户基础数据导入模块-》用户数据预处理模块-》模型搭建、训练模块-》可视化数据功能模块。用户数据特征预处理会根据模型的效果进行特征工程处理。可视化模块可以反馈模型的效果,多维度展示用户的分布情况。
(3)将用户分为两类,非入金用户和入金用户。利用构建好的特征采用gbdt模型进行分类,同时筛选出关键特征,利用逻辑回归模型挖掘特征的正负相关性,根据正相关的特征定位用户,进行相应的营销。利用模型去预测非入金用户的得分情况,根据排名取靠前的用户进行定位。
(4)利用聚类模型进行用户行为聚类分析。挖掘入金用户和非入金用户中行为相似的用户,分析相似用户的行为特征并进行权重打分,取得分高的用户进行定点投放。
三、深圳市比一比大数据爬虫项目:
目前公司爬虫采集网页信息的方式是先根据网页的页面结构,人工配置页面模型,根据页面模型中的属性抽取数据。网页结构稍微发生变化就要修改页面模型,需要持续跟踪,耗费好多的人力。通常抽取的内容都是具有明显的特征,例如公司名称,电话号码,公司地址,商品名称,商品价格,商品规格,商品图片等信息。类似于命名实体识别。
开发了一套抽取用户信息的模型,利用lstm训练出一个模型,不需要配置页面模型,直接输入页面源码,再通过语言模型输出相应的信息。
利用antv l7插件,结合react前端框架以及python后端调用,进行经纬度地图数据聚合,展示。 1.支持h3_index数据聚合,可以展示热点数据。 2.支持区域搜索与框选,针对区域进行重点分析。 3.提供数据下载导出功能。
通过解析任务流的输入输出表结构,生成图模型。自动解析表结构metadata,获取表字段,可以选择相关的字段进行查询。点击build graph,对于有公共父节点的图模型,可以自动生成对应的join查询结果。 1.支持字段选择查询。 2.支持相关字段连接。 3.支持metad