人工智能初级工程师+产品助理
1.具备python爬虫技能,2年间爬取网络数据3500万
2.可开发windows系统可执行的爬虫程序和其他功能程序(ocr文本识别.exe,月报自动数据自动统计.exe);
3.可利用python对从网站上爬下来的数据进行清洗(去重,清除文本表情符号,emoji表情,文本格式统一,多excel合并);
4.可根据需求将数据保存为不同格式(excel,csvl,json,jsonl);
copydone项目
本项目为ai生成营销文案,我在这个项目中扮演的角色是营销数据的爬取,项目共涉及90个营销场景,所有营销场景对应的数据均有我字定义和采集,并将采集回来的数据进行清洗后交由算法部门进行对应模型的训练
上面展示了pyhton数据清洗的部分代码,清洗的数据有小红书的和政府公文,小红书的主要就是把表情符号去掉,公文数据则要把文件格式整理好,以便于后续模型的训练。
上方展示的是利用python做的一个ocr文本识别工具,该工具可打包成exe文件安装到电脑上使用(无需配置pypthon开发环境)