1. 丰富的爬虫经验,完成过许多大型网站内容爬取以及信息整理提取工作,动态网页爬虫,多线程爬虫,scrapy,代理池收集维护;
2. 开发多款Python工具的经验,主要用于处理各类信息提取工作,以及流程类工作的一键完成,面向对象开发经验丰富,工具逻辑清晰,易于维护
1. 药物整理工作,爬取收集CFDA以及主要专业性药企数据,整合入库,文本中提取信息,作出一个用于药品归一化的工具,任意的不规则药品名经过程序过滤匹配,可转化为标准CFDA产品名,及获得药品类别,若群提供信息过于模糊,会借助搜索引擎打分辅助匹配
2. 流程类工作,独立完成一个5000行的脚本程序,可实现基因组数据从原始文件至最终报告的自动化生成,搜集整合多类大型数据库数据,输出文档包括丰富内涵,图文并茂,可同时生成网页版本和pdf版本,移植性非常好