熟练使用python的requests及lxml等工具包,能够使用pandas、matplotlib、sklearn等技术进行数据分析可视化,熟悉Django、Flask等开发框架,熟悉huggingface上的权重模型使用,进行命名实体识别、文本分类等任务。
对于招聘网站的招聘数据进行命名实体识别任务,基于字token的词向量训练模型,对比两个模型的测试集指标,能够很好的识别出样本中的实体,加上对模型结构和性能的优化探索,达到了93%的准确率,不仅大大提高了训练指标,也缩小了硬件资源消耗。
负责部分数据清洗检视工作,参与模型选择搭建及优化部署。抽取数据库表中字段信息,对数据进行清洗去重,检视完成后搭建模型,将部分数据放入模型训练,对比模型效果,择优优化,探索模型结构和性能优化方案,使得最后准确率达到93%,部署上线
对电信投诉数据进行分类处理,减少人工成本。参与数据分类标准的制定,模型的搭建和优化部署工作,长期维护。
对电信投诉数据进行分类处理,减少人工成本。参与数据分类标准的制定,模型的搭建和优化部署工作,长期维护。