软件:评分标准【用户导入数据集,你的软件给进行数据分析】3个人一组:组长100%,90%,80%,70%(公安业务、社会治理相关)
1、导入数据:允许用户导入符合软件要求的数据集
2、展示用户导入的数据信息:例如,有多少行、哪些列、打印前10行等
3、数据预处理:例如,查看数据集有没有缺失值,并进行缺失值处理等;再如,文本数据需要向量化,即把文本转换成数值向量
4、数据预处理前后对比展示:
5、探索性数据分析:例如,有多少数据,有多少列、每列数据类型等,相关信息要打印到软件可视化展示区域
6、特征选择:允许用户选择哪些列作为特征X,哪个列作为标签y
7、数据集划分:能够按照用户的比例要求划分训练集、测试集
8、提供多个模型:以分类任务为例,软件需要提供2种以上模型供用户选择
9、模型评价:以分类任务为例,软件训练的模型性能要可视化展示出来,如果用户分别选择了多个模型,要把所有模型的结果同时展示给用户,便于对比
10、模型保存:用户上传数据集训练的模型,要保存到用户指定的位置,并能读取保存的模型
11、新数据预测:读取保存的模型,对用户新上传的数据进行预测
12、生成数据分析报告:制作word模板,所有可视化结果、用户参数、数据信息、模型性能等自动保存到word模板,供用户查看。
目前已经写了几行代码,能够实现在tkinter窗口中选择模型对单条文本进行预测