具有三年自然语言处理相关工作经验;
熟悉基本的爬虫方法,具有海量数据的爬虫经验;
熟悉常⻅的机器学习和深度学习的相关算法;
熟悉常⻅的自然语言处理模型,以及相关的工具包和pytorch深度学习框架 熟悉自然语言处理相关算法;
能够解决文本分类,实体识别和文本相似度计算等常⻅的NLP任务;
运用相关爬虫方法对企业群体舆情信息进行动态获取和监测,同时通过相关nlp模型 对所监测数据进行处理分析:
1) 爬虫:爬取第三方新闻网站,以及企业官网上面的新闻舆情数据;
2) 情感分类:使用 albert+textcnn 模型对新闻数据进行情感分类;
3) 实体识别:使用 albert+bilstm+crf 模型识别新闻数据中的人名,公司名字,产品名字等;
4) 实体级别的情感分析:使用albert + mask机制对模型对新闻舆情中的公司进行实体情感分析,判断其情感极性;
5) 实体关联和摘要抽取等: 改进的基于权重的编辑距离进行实体关联,使用text rank算法进行摘要抽取