1. 熟练使用 python,可以写工程化代码完成但不限于以下步骤:下载数据、清洗数据、提取处理特征、画图、训练模型、生成报告、回传数据等步骤。
2. 熟悉sklearn、pandas、numpy、re、pyechart、matplotlib等常见第三方数据处理、建模工具库。
3. 熟悉requests,bs4,xpath等爬虫工具。
2021.03 营业执照 OCR 识别
项目描述:调试 Paddle 开源 OCR 框架,实现了对营业执照的 OCR 识别,通过正则匹配的方式将所需数据整理成为格式化数据,最终通过旋转、调参等手段进一步提高识别准确率,实现了营业执照信息的批量转化提取。
2020.03 AIForecasting 预测分销商酒类销量
项目描述:从数据库抽取 10 万条国家、商标、品牌、产品类型及 120 周销量信息,利用聚类、相关系数、观察销量曲线等方法归纳销量特点,确定了将数据分为两部分。一部分用统计方法直接预测、另一部分先用逻辑回归模型做分类,再用随机森林模型做回归,最终销量预测准确率达到 70%左右。2020.03 AIOrder 预测零售商是否购买产品
项目描述:从数据库抽取 AIOrderArray 字段,将 15 位代表是否购买的数字序列进行分解、并进一步制定规则清洗,形成 15 个特征,训练逻辑回归分类模型对每种产品是否会被购买给出预测,准确率达到80%左右。
2019.11 天猫婴儿商品销售情况分析
项目描述:从阿里巴巴天池获取了 2012 年至 2015 年母婴用品数据,用 Excel 处理重复值、缺失值、异常值,对数据进行一致化处理,通过销量的年龄分布、性别分布、时间分布、成交量和复购率等指标 对母婴用品行业的发展情况及行业特点进行分析总结。
网址:https://zhuanlan.zhihu.com/p/84590195