本科软件工程,所以对计算机的底层逻辑,数据结构,计算机组成原理,计算机网络十分了解。研究生方向是数据科学与分析,也是目前从事的工作方向,因此,对python、R、excel的操作比较多。
Python(熟练),爬虫相关(熟练),R(熟练),Excel(熟练),Java(基础,侧重于Web开发),MySQL(熟练),ssm框架(熟悉),HTML/CSS/JS(熟悉),Xmind(精通),Office,PowerPoint,Excel,Word,Axure
一、表情符号预测
项目描述:小组作业的目标是预测给定的一条推文的表情符号,任务是开发一个基于自然语言处理的机器学习模型,以预测在给定的构成一条推文的文本块中使用了哪个单一的表情符号。
主要职责:对所给的数据进行广泛的预处理 ,以处理数据的非理想特征的所有方面,以实现最佳的分类性能。
成果:在教授的反馈中,小组作业中数据预处理所采取的步骤是合理的并被清楚地描述,并得到了该部分88.89%(16/18)的分数。
二、数据科学组合-Airbnb数据分析
课程作业主要任务是对提供在阿姆斯特丹市收集的数据提供见解,以及编写算法,以改善Airbnb用户的体验。任务分为三个部分。在前两部分中,关注数据的数字部分。在最后一部分,专注于文本数据。
主要职责和成果:
第一部分:数据预处理和探索性数据分析
数据预处理:文件读入Pandas数据框、清理数据和删除不需要的列、执行二进制编码转换并计算房东注册天数。查看数据的属性和分布,并回答例如“有多少房东提供两个或两个以上的物业出租”等经理提出的几个问题。
探索性分析:通过水平柱状图可视化每晚平均价格,通过皮尔逊相关性探索变量间的相关性,通过纬度、经度作为坐标生成散射图展示房源每晚价格的地理分布。
第 2 部分:统计分析和推荐系统
统计分析:使用 t-test 和线性回归进行统计分析;通过可变选择确定显著影响租金价格的变量。
推荐系统:为新房东提供每晚房价的推荐定价;在给定的预算下为游客推荐一个社区。
第3部分:文本分析与伦理
文本分析:给定中心词实施一种以最高 PMI (单词关联度量度)分数检索上下文单词的方法。通过令牌化、PoS标记、小写化处理对Airbnb的评论进行预处理,接下来创建中心单词(PMI 方程中的 x)和上下文单词(PMI 方程中的 y),对于每个中心单词,通过创建一个共同发生的矩阵,计算多少上下文单词与它相协调,最后将共发生值转换为 PMI 分数。
伦理考察:对英国数据道德框架中概述的五项行动之一的遵守情况进行批判性反思。批判性地分析框架中概述的三个关键原则,即透明度、问责制和公平性。
项目描述:金融公司/银行/保险公司的主要权限之一是确定吸收损失的资本,无论是出于监管目的(为了遵守监管机构)还是出于经济资本目的(作为公司生存)。需要考虑的一个方面是市场风险,即由于基础组件价值变化而造成财务状况损失的风险。 个人职责:探索、实施和比较不同的统计方法,以评估金融
项目描述:小组作业的目标是预测给定的一条推文的表情符号,任务是开发一个基于自然语言处理的机器学习模型,以预测在给定的构成一条推文的文本块中使用了哪个单一的表情符号。 主要职责:对所给的数据进行广泛的预处理 ,以处理数据的非理想特征的所有方面,以实现最佳的分类性能。 成果:在教