本人浙工大研究生毕业(学历可验),熟悉Python编程,有相关数据开发、数据分析、数据可视化、爬虫等能力,有使用MySQL、Neo4j等数据库等经验,数据挖掘分析、爬虫项目最为擅长。获得省级优秀毕业生、优秀研究生一等学业奖学金,发表了1篇SCI一区期刊论文、1篇SCI二区期刊论文、1篇英文书稿、3篇EI论文。某国有银行市分行金融编程技能大赛第一名。
技术栈:Scrapy、Redis、Postman、MySQL、MongoDB、Pytorch、Pandas、Matlabplotlib
项目一: 爬取海外购物网站项目
技术栈:Scrapy、Xpath、Redis、Postman、MySQL、MongoDB
工作职责:编写爬虫程序,数据清洗,反反爬策略,维护IP代理池
项目描述:使用Scrapy框架,IP代理池、Xpath、Ajax、Postman等工具对商品的名称、价格、型号、详情链接等SKU数据进行爬取、解析等工作。将数据按照要求进行清洗并存储于MySQL和MongoDB数据库中。
项目二: 以太坊庞氏骗局检测项目
技术栈:Pytorch、GNN、Neo4j、Networkx、Pandas、Numpy、Matlabplotlib
工作职责:数据存储、数据清洗、数据挖掘、搭建算法框架、数据分析
项目描述: 构建并使用Neo4j图数据库进行存储大规模交易数据(10GB);对数据进行清洗,提取初始特征工程,划分不同时序的数据切片图;使用Pytorch搭建动态图卷积神经网络深度学习算法框架,将其建模为图分类任务进行识别庞氏骗局。
项目三: 电商离线数据仓库项目
技术栈:Flume、Sqoop、HDFS、Hive、Spark、Superset
工作职责: 数据存储、数据清洗、数仓搭建、可视化
项目描述:利用Flume、Sqoop对电商平台中的日志数据和业务数据进行抽取并将数据同步至HDFS上,利用维度建模搭建离线数仓并结合业务特性进行数据建模,采用Hive On Spark解决实际问题,进行指标分析和数据可视化。
使用Scrapy框架,IP代理池、Xpath、Ajax、Postman等工具对商品的名称、价格、型号、详情链接等SKU数据进行爬取、解析等工作。将数据按照要求进行清洗并存储于MySQL和MongoDB数据库中。擅长解决反爬、逆向挖掘的问题。
构建并使用Neo4j图数据库进行存储大规模交易数据(10GB);对数据进行清洗,提取初始特征工程,划分不同时序的数据切片图;使用Pytorch搭建动态图卷积神经网络深度学习算法框架,将其建模为图分类任务进行识别庞氏骗局,数据分析以及可视化