互联网由于其内容便于存储、易于获取、信息量丰富、方便阅读等特点,成为当下人们获取信息的主要渠道。网络上的信息量庞大,有各种噪声干扰,并且数据量以惊人的速度不断增长,通过人工进行分类势必不可行,为了方便不同用户操作、提高用户体验,产生了对新闻内容自动分类技术的需求。
本项目采用BERT-RCNN模型,数据集包括五个类别,分别是体育、娱乐、社会、财经、科技,总条数达28w(如图右),最终的验证测试结果和分类别的精度如图左,总精度可达0.9881,实现了对新闻内容自动分类技术的高效需求。新闻文本分类技术的研究在新闻语料库的建设、新闻信息检索等领域具有一定的理论意义和应用价值。