1.本人熟悉Python。熟悉Anaconda开发环境的使用。有过机器学习工作经验,利用scikit-learn进行文本分类;熟悉长文本分类的过程。
2.有一定海量数据挖掘经验。
3.本人熟悉java。有过solr、elasticsearch使用经验。在搜索引擎的开发中,有一定的调优经验。
4.能理解分布式检索和实时索引
5.熟悉并且深入理解nosql,能熟悉应用MongoDB
6.与时俱进、工作上多交流、不求广而求精。
对1.2亿家企业信息进行搜索。包括公司名和人名。
开发工具:项目初期用的是solr,由于solr出现性能问题,后期换为elasticsearch。索引上传代码均为java。
有以下工作
1、集群的搭建
2、schema的设计
3、索引数据上传代码编辑
4、集群性能调优
5、搜索体验调优