爬虫编写,scapy,selenium等库;
LInux;
机器学习算法,例如svm,randomforest,linear regression等。
数据库,mysql,mongodb
python
html
css
油气井产量的年度预测回归,准确率达到95%;
house price 预测,R^2达到0.91;
油气井措施效果的A/B test
石油资讯信息的爬取以及清洗达百万条。
1. 设计mysql对应字段存储相应数据,建立数据存储模型。 2. 理解网站架构。 2. 设计并实现爬取的逻辑思路,并调研相关的方法来实现高效率抓取。
1 导入训练模型。 2 清洗准备训练数据,并利用清洗完的数据优化RNN模型的参数。 3 在训练完模型的基础上,对模型进行评价以及训练的迭代。
1. 数据清洗 2 异常值处理 3 EDA 4 建立基础模型 5 不同模型比较 6 决策树计算特征重要性 7 feature engineering 8 训练模型并获取改进后的R2