1. 对Python极为熟练,熟悉Python的高级语法
2. 熟练使用Scripy进行数据抓取
3. 使用Tornado框架进行服务器搭建(后端)
4. 对shell极为熟练,编写过大量shell脚本
5. 使用sparksql进行大数据分析
6. 熟悉Hadoop、spark、flink大数据技术
6. 使用elasticsearch进行数据分析
项目1. 知乎爬虫
项目时间:2019.06
项目角色:爬虫工程师·开发
项目概述:本项目通过Scrapy框架对知乎上的问答进行抓取,将数据进行清洗后存放在mongodb数据库中,供前台页面调用分析。
本人职责:
1. 负责爬虫代码的编写以及数据的清洗入库
2. 与网站的反爬虫进行对抗。
项目2. 客户管理数据集市
项目时间:2019.11 - 至今
项目角色:ETL工程师·数据处理
项目概述:本项目通过对用户画像(资产、消费行为、用户特征)的分析,为用户进行评级、给用户打标签,同时监测用户的欺诈行为。
本人职责:
1. 在项目中通过Python脚本进行数据接入
2. 将数据写入hdfs分布式存储后使用ETL工具进行加工处理
3. 使用Python脚本与数据交换中心进行对接,下发xml文件。