1、熟练并擅长使用Python进行各项程序开发、开发网络爬虫编写、算法演练和数据挖掘;
2、熟悉分布式集群的搭建,工作中有RPC架构,spark集群,Redis集群,Kafka集群,elasticsearch集群,hadoop集群,Hbase集群,Mongodb集群等各种集群与数据采集、处理和挖掘的经历;
3、熟悉scrapy、scrapy_redis和pyspider等各项爬虫框架,自主设计开发了mongodb_scrapy的分布式爬虫框架,深度改造开发了爬虫监控系统spiderkeeper,并实现了网页正文的通用解析方案;
4、熟悉NLP的常用处理技术,通用的如文本的各种分词规则切词,统计学的TF-IDF和Textrank的处理方法。深度处理手段,如gensim,word2vec和fasttext框架,利用词向量聚类分类、求相似度,词向量距离等深层次挖掘分析;
5、熟悉tensorflow框架中当下非常流行的CNN、RNN和CNN+RNN神经网络的处理技术,非常成功的运用于各种图像搜索,图像
文本识别和万能打码平台的处理等项目中;
6、目前担任爬虫架构师,负责管理公司平台数据部门网络爬虫组的各项项目演进工作,掌握了服务器、IP代理和数据等工作资源;
7、熟悉使用java进行基本的程序开发。
1.自主设计开发了mongodb_scrapy分布式爬虫框架:
区别于scrapy_redis分布式框架,当数据量达到百万后redis-sentinel容易宕机,但使用基于磁盘IO思路的分布式框架mongodb_scrapy,虽性能略差,但是拥有更低的成本,爬虫的过程数据都可保存,减少piplines的阻塞,释放了各节点的内存空间。
2.通用的网页正文解析:
re,xpath,bs4等网页解析技术缺乏通用性。通过本方案,使用行块函数进行分割,快速解析web正文,正确率达95%,解析快,成功应用到自动化爬虫项目。
3.NLP处理实例:
自然语言的分类,正负向,观点提取,近义词,概要,错别字均可成熟稳定的实现。尚在探索的,运用rnn/cnn自动写作,吟诗作赋,创作歌词技术。
4.深度挖掘实例:
CNN的万能打码模型和图像中文本识别