在该项目中,我参与了教育资源数据的自动化处理与格式标准化工作,完成了以下目标:
数据收集与爬虫开发:编写Python爬虫脚本,从缺书网成功采集了700余个ISBN信息,大幅提高了项目组的工作效率(约提升80%)。
数据清洗与提取:通过Python批量处理超过300个Word文件,从中准确提取课程名称、课程代码等关键信息,确保数据一致性与完整性。
文本处理与格式统一:利用DeepSeek大模型的API接口,设计Prompt从100余份格式混乱的课程大纲中提取关键数据,并统一转换为JSON格式,提高了数据处理的效率与可读性。
该项目显著提升了数据处理的自动化水平和准确性,为公司教育资源管理与分析提供了重要支持。