法律文书金额实体提取,NLP实体提取任务。实际法律业务需求中,提取法律借贷判决文书中的本金、利息等金额字段通常都是由人工完成,费时费力。本项目结合NLP技 术,提出基于BERT的法律借贷判决文书金额实体提取模型,实现十类金额实体的自动化提取。①设计TF-IDF+朴素贝叶斯分类方案,实现了对判决文本的初步筛选,提高了处理效率。②采用正则表达式进行金额实体的提 取;对提取出的金额实体,根据其上下文构建分类特征,采用BERT+逻辑回归完成金额实体类别的分类,模型调优后加权准确率达到 93.5%;③测试与部署,与甲方负责人完成模块的测试、算法打包为docker部署到了服务器上。成果:软件著作权一项,交...
《基于分级分类特征编码和Huber回归的新冠确诊人数预测模型》- 队长 2020年10月 项目描述:第六届中国健康信息处理会议的新冠预测评测竞赛(CHIP2021),给定三个区域的确诊病例时序数据和区域性特征数据,要进 行未来7天每天新冠确诊人数的预测。本项目提出基于分级分类特征编码和Huber回归的预测模型。 个人职责:①数据异常值清洗;设计防控措施分级分类特征编码的方案,解决该部分文本特征难以数值化的问题;②综合实验分析对比多 种模型,最终选定的模型大大降低模型拟合对数据异常值的敏感度; 成果:该赛道的第一名,并进行了会议口头报告...
Conditional Automated Channel Pruning for Deep Neural Networks - 一作 2020年08月 - 2021年05月 研究背景:通道剪枝是模型压缩中的一种重要方法。然而在多剪裁率问题下,现有传统剪枝方法对于不同的剪裁率需要进行独立、重复的 搜索,费时且不必要。本研究旨在解决传统自动化通道剪裁算法的在多剪裁率条件下的重复性问题。 工作与贡献: ①将条件化通道剪裁问题形式化为一个马尔科夫决策过程的问题(MDP),设计对应的状态空间、动作空间。 ②针对MDP问 题的求解,设计基于DDPG算法的深度强化学习求解框架。...
研究背景:发动群众提交目击报告是防治亚洲大黄蜂的重要手段,然而大部分目击报告提交者缺乏对该物种的了解,报告中存在大量误 报,如何从海量的目击报告中鉴别高可信报告是一个重要课题。本研究是从传播机理和报告特征出发,构建了报告优先级预测模型。 工作与贡献:①基于亚洲大黄蜂的迁徙习性,基于高斯分布假设构建亚洲大黄蜂概率传播模型。②将目击报告最优优先级排序的问题建模 为一个分类、预测的问题。提取构建目击报告中的多种丰富的特征;基于这些特征,构建基于逻辑回归算法的分类模型来预测报告可信 度;引入加权损失因子来解决样本不平衡问题。③量化考虑报告之间的印证影响,来最终确定报告的优先级排序。在基准测试集上,我们...
新冠疫情背景下,涉疫地点信息的整合公开对于疫情防控而言至关重要。然而,涉 疫地点数据多以非结构化的方式出现在疫情通报网页上,在以往这项工作主要通过人工 标注实现,不仅消耗人力而且效率低下。近年来,自然语言处理作为人工智能的一个重 要领域得到了飞速的发展。因此,本文通过比较不同的方法,构建了基于自然语言处理 技术的涉疫地点标注标注模型,以解决这个问题。...