● 项目背景:京东汽车部门创建初期,为了构建自己的汽车配件仓库,需要打造一条数据清洗流水线,将各业务线中杂乱且不规范的汽车配件数据通过程序清洗为标准的汽车配件 SPU。
● 项目技术:后端java和python为主要语言,结合京东二研大数据平台,xx-job做为数据清洗的主要工具,使用es作为数据采集工具,使用mysql读写分离以及分库分表作为清洗产出数据存储实现
● 项目难点:行业内全车件数据庞杂,spu 种类可达数百万之多,且所有的4s店无统一标准,且仿制品厂商众多,标准不一,需要将配件特征高度抽象并制定统一标准。
● 解决方案:与国内知名数据公司合作,在数据公司的数据基础上结合自主品类与属性分类规则,对非标准数据进行二次清洗加工,生成标准配件。