一、掌握Python。(1)可用于数据清洗、数据分析与数据可视化;(2)掌握爬虫相关操作,使用过selenium爬取企查查工业企业信用代码数据、调用百度地图API获取地级市市政府经纬度坐标。(掌握Xpath,selenium的基本使用,了解bs4、正则;了解代理问题;掌握超级鹰的基本使用,了解动作链,能够对部分验证码问题进行处理;了解scrapy框架)(3)机器学习
二、掌握Stata,熟练使用内置函数进行回归分析;
三、掌握word/ppt/excel办公软件;掌握Wind的基本使用;
◆使用Python中pyautogui库模拟鼠标点击,从wind企业库—公司资料—控股或参股公司栏目中下载1998年至2013年1069家工业企业参控公司数据。
◆ 使用numpy和pandas对数据进行预处理。
◆ 利用企查查和Wind查找处理后文件中的子公司和孙公司对应公司代码、国民经济行业、职能及所在城市,在寻找一年上述数据后,利用Python对之后年份的数据进行匹配(也可以用vlookup)。
◆ 调用百度地图API接口获取各个地级市市政府经纬度数据。使用Python计算各个地级市市政府的地理距离构建空间权重矩阵,利用空间矩阵计算地级市之间房价的相互影响。
◆ 全国大学生数学建模竞赛山东省赛区一等奖;第九届全国大学生数学竞赛(非数学组)三等奖;“高信杯”青岛市数学建模竞赛三等奖;第五届青岛大学数学建模竞赛一等奖;
跨境电商数据分析_虚拟实习 (1)数据可视化并对可视化的结果进行数据分析 (2)采用聚类方法对不同消费群体进行分类,通过对比不同组别与购买组的异同点找潜在的购买者
企查查数据爬取 使用selenium爬取企查查工业企业的信用代码数据,并对爬取后的数据进行数据清洗操作。
企查查数据爬取 使用selenium爬取企查查工业企业的信用代码数据,并对爬取后的数据进行数据清洗操作。