基于大数据的搜索系统
需求分析
电商搜索引擎要处理的原始数据本身就是结构化的,通常来自于数据库,且有多个数据源。相比与传统的搜索引擎,电商搜索在数据采集方面更侧重于各种数据源的数据更新。
电商搜索引擎的过滤功能其实比搜索功能要常用,甚至大于搜索本身。电商搜索面对通常是商品名称,而商品名称是一个短文本标题,很难从文本相关性方面得到非常明显的差异。
电商搜索引擎支持各种维度的排序,包括支持好评,销量,评论价格等属性的排序。而且对数据的实时性的要求非常高。电商搜索对数据的实时性要求主要体现在价格和库存两个方面。
电商系统中各类数据的数据量十分庞大,在如此庞大的数据量下,我们如何能够快速的根据用户所输的关键字查询出与此相匹配的内容?
电商搜索引擎系统要处理的原始数据本身就是结构化的,数据通常来自于数据库,考虑到数据库的读写速率和系统本身的性能,用户想要在存有上亿条数据的数据库中查询所需数据是不现实的。
同样在数据种类繁多的电商系统中,用户对自己的需求只有模糊定义,这个时候就可以通过搜索引擎系统来实现对用户需求的精确展示。
模块目的
搜索引擎系统使用了现如今主流的Elasticsearch搜索引擎,加入Logstash作为数据采集引擎,kafka消息队列,hdfs文件系统等技术点,使学员掌握这些技术内容,实现商品搜索,店铺搜索,以及订单查询的功能,来优化项目,使用户体验得以提升。
搜索引擎系统是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。当用户查询所需要的数据时,搜索引擎系统的任务就是在最短的时间内,让用户找到他们最想要的东西。
电商搜索引擎的另一个功能就是当一家商户新增一些商品参加促销活动,这个时候就要体现搜索功能的这个功能,能够实时快速查询到该商家新增的商品供用户选择。电商平台中的搜索系统最主要的目的就是为了让学员熟练掌握搜索引擎系统的架构,已经各个组件的协调使用,从而达到电商平台搜索目的。