⚫ Excel:利用函数对数据进行清洗数据、数据透视表、可视化
⚫ Python:用 Pandas、Numpy 清洗数据,matplotlib 对数据的可视化处理,爬虫,selenium
⚫ Mysql:设计数据库、DDL 数据库操作、DML 数据的增删改、DQL 数据的单表查询、条件查询、多表查
询
⚫ 数据可视化:FineBI,FineReport,能够独立设计制作大屏驾驶舱,利用 BI 制作智能仪表盘以及数据分析
看板
⚫ 机器学习:Python(Sklearn:KNN,Kmeans,决策树,逻辑回归,随机森林,XGboost 等机器学习语
言)
⚫ 其他工具:熟练使用 ppt,word,xmind 思维导图等工具
物流到货时间预测模型
项目介绍:原有的算法预测准确度不足 70%,需要研究新的算法模型提高物流到货时间,目标是 90%以上
⚫ 拟定可能特征指标,如城市、中转次数,地址层级等,这些数据大都来自于物流公司送货后的信息,并不
能提供给预测,这次探究最终确定将经纬度,即送货位置作为模型计算数据
⚫ 数据采集,由于数据库并没有相关数据,需要自己预先采集,编写数据采集代码,根据本地销售数据的地
址,采用 geocoder 模块,获得地址的经纬度;根据物流单号,通过物流公司查询 api 接口,获得物流送
达营业点时间,计算到达天数
⚫ 数据清洗,去除异常值,主要是对到达天数进行异常值处理,先对经纬度相近区域极大极小值以 95%与
5%分位数代替,再对经纬度位置相近的数据用均值代替
⚫ 物流时间与距离成正比关系,与地址到城市中心的距离成正比关系,计算得出发货地址与到货地址所在城
市距离,地址所在城市距离与地址的距离
⚫ 通过对于多种机器学习算法的检测,最终采用 RandomForestRegressor 进行预测,逐步进行调参处理
⚫ 对测试集进行预测,评估模型效果,最终达到项目需求