1、数据采集:淘宝网华为手机、51job网电商类职位、链家背景租房、东方财富网上证指数等项目爬虫经验;
2、数据预处理:分为数值型和字符型数据;对前者,一般有去重、补缺、标准化;后者会根据项目具体情况而定;
3、建模:常用分类、聚类模型,多元线性回归、时间序列模型、生成模型,正态分布检验等
4、可视化:根据项目需求定,常用有matplotlib、seaborn和pyechart
5、评价:常用的评价指标
1、数据采集:淘宝网华为手机、51job网电商类职位、链家背景租房、东方财富网上证指数等项目爬虫经验;
2、数据预处理:分为数值型和字符型数据;对前者,一般有去重、补缺、标准化;后者会根据项目具体情况而定;
3、建模:常用分类、聚类模型,多元线性回归、时间序列模型、生成模型,正态分布检验等
4、可视化:根据项目需求定,常用有matplotlib、seaborn和pyechart
5、评价:常用的评价指标
单独开发 根据原始数据分析,以人均GDP来设计目标列,以0、1区分 用了逻辑回归、随机梯度和k近邻算法来实现分类,并比较分类效果
单独完成 抓取的数据来源于东方财富网站上的沪深京A股页面(http://quote.eastmoney.com/center/gridlist.html#hs_a_board),页面总页数为250页.从实际爬取的情况看,为避免超出爬取范围而导致的程序报错,本文共爬取了1-244