PriceRunner是瑞典知名比价网站,用户覆盖瑞典,丹麦,英国,德国等六个欧洲发达国家。网站数据来自爬取的欧洲各大电商网站,部分数据由电商按一定模板提供,经过一系列后台处理流程,形成标准的产品数据及相关价格链接。
后端组通过Hadoop集群分析处理爬虫数据,形成初级的商品信息,存入MySQL数据库(由于产品数量巨大,数据库按国家和产品Channel进行了分库分表)。为了在前端展现标准化产品以整合不同商家的价格链接,需要对初级产品信息进行加工,涉及结构化产品的创建和编辑,初级产品整合到结构化产品下形成价格链接等操作。Hybrid系统是初级产品通往结构化产品的桥梁,为工作人员提供数据查询,产品编辑功能,分为API和Page两个系统。
HybridAPI服务通过定时任务读取数据库中的产品信息,生成Lucene索引文件,然后将Lucene数据读入内存,对外提供Restful风格查询接口。HybridPage服务提供web界面,调用API服务对产品进行全文本模糊检索,工作人员可对产品进行创建,编辑,整合,删除等操作。
系统采用SpringMVC架构,通过maven构建,使用内置的Jetty部署在Linux环境。
参与重难点需求的讨论,数据库表的设计,页面交互逻辑的设计及开发,并对初级开发人员提供技术指导等。