1. 两年大数据平台开发经验,深入研究flume及分布式源码,熟练使hdfs/hbase/kafka/hive等大数据组件。
2. 掌握java及python等语言,也能够使用scala语言进行简单的开发工作;
3.图像处理专业,具有良好的数学及算法基础。熟悉聚类、回归,机器学习算法,如svm/pca/k-means/cnn等 ;
4. 能够熟练使用tensorflow对机器学习算法进行模型训练及评价。
项目一
1.项目人数:2个人;
2. 项目内容:
1.该项目主要是在flume的基础上进行分布式框架开发。主要实现了任务的隔离上线以及动态扩缩容等功能。目前主要包括三个部分:kafak-->hdfs/kafka-->es/kafka-->druid。
3. 所起作用:新功能开发,bug修复及项目重构等工作。
项目二
工作主要内容是智能运维平台。利用大数据与机器学习技术对运维工作进行智能化管理。
1. 负责服务器指标数据采集/处理与存储的工作。
主要有:
1. 利用snmp协议/prometheus/zabbix三种数据采集方式采集数据,然后利用flink进行处理之后存储到opentsdb中。
2. 负责日志数据的采集/处理及存储工作。
主要有:
1. 利用syslog协议采集数据,经过flink处理将数据存储到es中。