代码解释:
文本数据预处理:
使用 CountVectorizer 将文本转换为特征向量(Bag of Words表示)。
使用 LabelEncoder 将标签转换为数值。
Dataset 和 DataLoader:
定义了 TextDataset 类来处理数据加载,将数据转换为 PyTorch tensor。
使用 DataLoader 来迭代训练集和测试集。
CNN 模型:
定义了一个简单的 CNN 模型,包括一个1D卷积层和一个全连接层。
Conv1d 是 PyTorch 中的1D卷积层,适合处理文本序列。
训练:
使用交叉熵损失函数和 Adam 优化器来训练模型。
训练10个 epoch,并打印每个 epoch 的损失。
测试:
在测试集上评估模型的准确性。