数据分析师 华南专项二部
2021.08 - 至今
广州
在长隆评论健康度分析项目中,对爬取的长隆评论文本,使用python工具,通过pandas、re库对数据进行预处理,并利用高频垃圾文本
关键词剔除广告和无效文本。深入理解客户业务需求,对长隆项目进行数据筛检和完善分主题模型,最后使用python的shownlp库对其进
行情感分析并计算各景区健康度。
完成yonghong的页面报告设计,对数据进行筛选过滤制作报表和可视化分析,使得客户更直观高效清晰地理解数据。
根据项目的数据需求,使用Charles、Proxifier抓包软件抓取特定数据包请求头,熟练利用python对多个微信小程序平台进行每天定期进
行量的抓取,利用sql对每日的爬虫工作进行量的监督。
对每周的问卷数据检查情况以及对记录数据方式进行逻辑梳理,编写代码,最后完成了一个检查数据算法以及高效记录数据程序,70%数
据可进行程序检查以及记录数据可提升50%效率。
对微博评论数据及品牌需求完成品牌明星知识图谱的相关搭建,以及制定模型及算法计算相关品牌推荐的明星。对其进行构建循环神经网
络模型进行文本分析。
破解微信小程序几大商超sign算法,了解加密逻辑并可以还原成Python代码与业务逻辑相联系,更加鉴定了了解https加密通讯的底层原
理。
十七届广东金融学院数学建模竞赛 2020.06 - 2020.07
项目聚焦的问题是通过分析股市数据相关性,对八大经济系统的防疫效果进行评判,预测未来疫情人口数据。
通过Python爬取股票数据信息,利用股票的量价与当前累计确诊人数建立相关性模型。
运用协方差矩阵,通过Excel内置函数和Matlab使用后续推测算法对未来累计确诊人数进行人口预测。
运用层次分析法,通过从感染率、死亡率、治愈率进行防疫评估,成功得出中国在八大经济系统中防疫效果最佳的结论。
第九届泰迪杯全国大学生数据挖掘挑战赛 2021.04 - 2021.05
项目通过利用8万条网络评论的情感值对景区/酒店进行多维度评价打分,并挖掘出景区/酒店各自特色,同时析出无效评论,以作为消费者
选择参考。
使用Python工具,通过jieba库、shownlp库分别对文本进行分词、热词统计与情感分析,通过线性回归拟合各个景区情感值权重。
熟练运用pandas、jaro库(文本相似度)对文本数据清洗,通过tf-idf及文本相似度进行不相关挖掘,剔除出无效评论文本;使用jaro距离
统计文本相似度最高的语句,挖掘出各景点/酒店特点。
在项目中熟悉掌握了各类Python本文分析库的使用,增强了数理逻辑思考能力与运用恰当方法对大量数据建模处理的能力。
第十七届全国大学生数学建模竞赛 2021.09 - 2021.10
项目内容是通过分析这家公司近5年多家原材料供应商的订货量和供货量数据及多家转运商的运输损耗率数据,对供应商重要性进行排名以
及制定供应和运输方案降低原材料成本。
使用python的numpy库,运用层次分析法制定三个指标对分别标准化后,分别使用合适参数并通过一致性检验后,对供应商价值高低进行
量化评估以及排名。
使用python的numpy库,通过协方差相关性分析得出供应商供货量与时间序列的相关系数,并结合可视化分析可得出供应周期性,最后运
用线性规划模型制定最低成本方案。
毕业设计:基于Tensorflow卷积神经网络设计水果识别系统
利用Python对百度搜索引擎利用特定分类关键词进行爬取以及人工数据清洗。
使用Tensorflow进行卷积神经网络的建模,此模型有两个卷积层池化层,优化器为SGD优化器,最后使用Softmax函数进行概率预测输出,
训练次数为60次。
使用Python的pyqt5库设计简单交互前端,实现本地上传照片并读取训练好的模型进行蔬果的预测。
经过测试,模型对于特定蔬果类别的预测准确度为80%。