项目主要目的为使用 人工智能技术对新闻进行分类,减少人力成本提高效率。
1. 模型主要分为以下5个步骤进行:数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。
2. 使用python及其相关科学库如:numpy、pandas等技术开发,选择的算法模型有:词袋模型BOW(Bag of Words)、词向量(Word Embedding)、神经网络,采用交叉验证的方式训练模型,来降低过拟合情况,最后对上述三个模型的结果组合加权平均。
3. 数据爬取主要使用Python requests库。
4. 使用Jieba中文分词库对中文进行分词处理,来完成数据选择与读取。
5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。
6. 使用开源TestCNN和TestRNN模型对数据进行处理。