1. 掌握 SQL 语言,熟悉 MySQL 数据库以及 Redis 能在对数据进行基本的增删改查
2. 熟悉爬虫 requests,Scrapy 爬虫流程,掌握正则表达式、Xpath 提取网页资源方法,熟悉分布式爬虫
3. 熟练掌握 Python 基本语法,会用 Pandas,Numpy,Matplotli、Scikit-Learn 等分析模块对数据进行清洗、
分析、可视化和建模
4. 熟悉基本特征工程流程及特征提取
5. 了解机器学习分类、回归、聚类及关联规则等算法,包括 LR,SVM,KNN,决策树,随机森林,朴素贝叶斯,
K-means,XGBoost 等基本模型及用法,能手动实现基本机器学习算法
6. 了解推荐系统原理及协同过滤推荐算法 (UserCF,ItemCF)的应用
Dota2 所有选手数据获取
开发工具:Python3 所用模块或工具:re、math、datetime、Scrapy、Request、elasticsearch、Scrapyd、Xpath、Fiddler 项目目标: Dota2 中所有选手基本信息录入 ES 中
具体内容: 1.搭建 Scrapy 框架,并设置 middleware.py、settings.py 等文件所需参数,编写入库 ES 的管道文件
2.分析网页源代码,判断真实源代码,解网页源码中的 JSON 格式,并用 Xpath 提取所需的数据 3.编写 Spider.py,设置 headers 和 cookies
4.录入数据并生成日志文件
5.用 Scrapyd 对爬虫进行监控
项目结果:成功将所有选手数据录入 ES 项目收获:分析网页所编写的源码,并转换为 Python、Xpath 可解析的格式
CS:GO 比赛选手数据获取 开发工具:Python3 所用模块或工具:re、math、datetime、Scrapy、Request、elasticsearch、Scrapyd、Xpath、Fiddler 项目目标: 1.对 CS:GO 每场比赛的最佳情况等数据录入 ES 中
Airbnb 短租数据分析 开发工具:Python3 所用模块:Pandas、Numpy、Matplotlib、Sklearn 项目目标: 对多条包含房屋以及住户具体信息的数据进行分析,得出房价预测的方式 具体内容: 1.导入数据,查看表内的详细信息,解决中文显示问题,处理缺失