此项目是2018年年底公司做批发的一个需求,需要在自己的商城爬取数据源,主要爬取的站点是”51go“、”广州搜款“、”参茸汇“,爬取的内容有商品售价、图片、标题、销量、库存、属性、详情、店铺信息等商品相关信息;我主要负责整个项目的规划推进和解决技术难点,由于前期开发资源有限,故将爬虫和商城的商品模块业务逻辑耦合一起,录入mysql库,使爬取回来的数据可以直接展示在自营商城,后期公司有了开发资源,我推进了项目解耦,python工程师将爬取回来的数据按照指定的json格式存入kafka队列,php处理商品模块业务逻辑,使用脚本消费消息;项目用到的技术有Python3.6、python-scrpay框架、xpath、mysql、oss存储、kafka。