该项目为某高校科研工作站提供专利研究数据,在其科研工作中,需要翻阅使用大量的各行业类专利文件,现有平台在其专利的数量和搜索质量上难以满足其巨大的需求,并且目前商业专利平台费用过于高昂。
本项目直接使用国家公开专利平台数据,采用基于python语言的自动采集框架,采用逐步、有序、真实模拟用户等采集机制,完美实现数据采集。
本项目基于专利数据,对数据提取进行加工,使用基于NLP的词语联想、NLP智能文本分析技术,构建基于ElasticSearch为核心的分布式搜索和分析引擎,较好的满足了工作站的科研数据量与查找需求。
本人在项目中负责:
1:负责与客户洽谈合作,沟通需求,拟定商务方案,推动商务落地
2:负责根据客户需求,确定技术栈、技术选型
3:根据目标站点特点,进行技术攻关,尝试各种反爬技术、逆向方案,进行数据采集
4:负责拟定项目各项开发文档,把控项目进度,解决项目技术难题
5:负责项目质量把控,落实项目部署资源,支持团队进行项目部署
6:负责项目团队日常工作
7:负责项目后期维护工作
8:负责项目收款工作、与客户关系维护工作