熟悉原生Python面向对象编程,了解多线程的处理
能够熟练使用Python,c++ java,javascript,
掌握scrapy,Django,pyqt等框架,
掌握常用的数据结构与算法,
承接各种APP,网站,或其他数据采集入库业务
承接EXCEL,WORD等自动化办公业务
大部分项目经验均为文本数据处理相关
NER实体识别
文本信息提取
文本信息聚类分类
爬虫数据采集
数据结果可视化呈现
对某图片分享网站进行了爬虫采集,并且通过算法将其的图片指纹存档入库,并且可以通过识别图片的指纹快速找到相似图片
某贴吧爬虫,可爬去任意贴吧的所有帖子,获取帖子回复的资料进行清洗入库,包含评论人昵称,评论内容,点赞数等数据,