熟练掌握python语言,能够独立开发web程序
,爬虫各种分布式爬虫,运维脚本,数据处理分析脚本。熟悉机器学习和深度学习,有nlp和cv领域的工程实践经验。熟悉大数据平台的架构,运维和开发,有大数据平台的架构和开发经验。
熟练掌握linux系统的使用运维和项目部署,有运维和管理多台服务器的经验。
熟练掌握sql,熟悉mysql,mongo,postgresql,hbase等数据库的使用,和有相关项目使用经验。
熟练掌握git和svn协作开发
熟练掌握docker
熟练掌握hadoop hive hbase spark storm kafka zookeeper
1.基于python的分布式爬虫,支持多机扩展,支持静态和动态抓取,实现了抓取,清洗,存储,监控一体化方案。目前服役与新闻采集舆情类项目,抓取网站600余。架构采用scrapy redis kafka elk celery
2.nlp文本多标签分类,实现了开放领域的新闻多标签文本分类;文本地区归属识别;细粒度文本情感分析;新闻舆情热门话题发现聚类项目.。以上项目全部应用于新闻舆情数据挖掘相关的项目。
3.以图搜图项目端到端的实现了从传统特征提取到dl特征提取,预训练微调特征提取到hash搜索的解决方案。做过图像分类和物体检测方面的小应用。
4.大数据平台架构和搭建,运维和开发:日志收集体系,基于hadoop,hive的数据仓库体系,批处理和流处理的可配置话的etl和作业调度,态势感知流计算程序,日志分析和可视化程序
5.200余政务站点的错误链接,错别字,打开情况监测和扫描程序