熟练掌握Python、Java语言
具有较丰富的爬虫开发经验,熟悉常见的反爬虫策略
熟悉常用机器学习方法,对常用分类及聚类算法有较为深入的理解。熟练使用scipy、skilearn等常用框架
有CUDA开发经验,熟悉常用的GPU加速方法
熟悉Go语言及Docker容器技术
沃德舆情系统
搭建HDFS及Hbase分布式数据存储平台。
按照关键词采集微博,为解决不同关键词数据量差距极大的问题,提出并实现动态调整采集策略的方法。
搭建Elasticsearch索引系统,支持动态数据查询。
提出并实现GPU带权网络介数算法。带权网络广泛存在,而带权网络介数计算复杂度高且无有效的GPU加速工具。使用CUDA设计并实现GPU带权网络介数算法,并使用work-efficient及warp-centric两种优化技术,性能相比于CPU串行算法有10到20倍的提升。
设计算法自动抽取社交网络中流行话题,根据话题相关内容进行话题分类。