编程语言: Java, Python, C#
网页开发: HTML, CSS3, JavaScript
数据库: Pgadmin(database PostgreSql ), MongoDb, MySql
爬虫框架:scrapy
后端框架:maven spring
苏州青颖飞帆科技有限公司 server研发工程师 2019年2月—
• 负责内容业务平台内部数据查重功能的设计开发。(java)
• 负责基于scrapy的python爬虫的编写。
• 负责数据采集,处理,清洗,设计数据管道,mongodb存储,利用机器学习进行数据评分,修改,调优。
• 参与资源推送系统开发,内容池构建。
• 负责开发了成人教育业务自动阅卷功能的算法设计与构建。(java)
APP内数据的爬取采集,清洗,从多个来源的采集任务,已形成自动化的数据爬取,清洗,分类,标注任务。数据包含文本,视频,图片等格式。
基于特征相似度算法的内容比较和去重,多线程任务解决数据库内数据重复问题,应用于试卷内容的重复度计算比较和数据库优化。