熟练使用STATA等数据分析工具处理并分析数据,能熟练产出数据报告,善于从数据中发现问题
熟悉SQL语言,能使用MySQL进行数据存储
熟悉python,能使用python/R进行数据处理和分析,了解常用的统计和挖掘算法
熟悉Excel,能熟练使用内置函数、v-lookup和数据透视表进行数据展现和分析
项目1简介:
在线服装定制与零售平台中,消费者产生了大量的文本需求与消费行为数据,基于交易成本理论,以研究定制化程度对制 造成本和退货成本的影响机理,从而得到其对零售理论的影响。
主要工作
数据获取与数据清洗:以某婚纱电商2016年的5400条交易数据为样本,结合搜狗语料库,建立婚纱定制领域关键 词词典,使用R语言的Rwordseg包分词,消除停用词;
数据标记:结合婚纱定制流程,建立在线婚纱定制本体领域模型,从而得到顾客需求定制化分析语料库;将顾客需 求分词后,对定制化特征进行标记;
回归分析:利用STATA对定制化程度、制造成本、时间压力、是否退货、退货成本进行回归分析和调节检验。
项目2简介:
以在线租房交易平台为对象,研究(1)双边平台中,用戶间的交叉网络效应及不对称性;(2)当单边用戶的⻆色产生差异 时,是否有利于平台对用戶的吸引;(3)个人房东&租客、职业房东&租客的交互是否会有差别。
主要工作
数据获取:利用python网⻚爬虫等工具,获取2015年1月1日至2018年10月31日的用戶数据,包含5个城市(南 京、上海、北京、杭州、深圳),时间跨度179周,总数据量达百万级;
数据清洗与处理:利用MySQL数据库,进行(1)数据清洗,包含一致性、无效值与缺失值的处理;(2)数据匹配:通 过内连接、外连接以及交叉连接等方式,生成所需的数据格式;
回归分析:对各变量进行平稳性检验后,进行PVAR(面板向量自回归)分析,通过方差分解和脉冲相应得到变量 间的动态关系。