大数据技能
1.熟悉 Cloudera 公司的 CDH 大数据集群,能够通过多种语言使用 Kerberos 对 CDH 各组件进行安全认证。
2.熟悉 Spark 内存计算引擎,熟练使用 Spark-sql 进行离线数据分析,了解 Spark 相关算子。
3.了解 Hadoop 生态圈,能够搭建 Hadoop 分布式集群、开发 MapReduce 代码。了解 Map、Reduce运行机制和核心原理 Shuffle 的运行过程。
4.熟悉 Hive,Hbase,Impala、Solr 相关组件,通过 Java/Python 对数据进行存储,计算。
5.了解分布式计算相关架构,处理每日 TB 级别数据量。
6.熟悉数据湖整体方案和实现架构,通过大数据集群对多数据源数据进行存储,计算。
7.熟悉人物画像相关概念,熟练运用基于文本的用户信息提取技术形成人物画像。
8.了解 Python 语法和爬虫相关技术,使用 Urllib/BeautifulSoup 进行网页爬虫,JavaScript 函数解析,json 数据解析等应对反爬虫。
JAVA技能
1.熟练使用 Java 语言进行 WEB 开发。
2.能够运用 HTML,JavaScript,jQuery,CSS,Ajax,BootStrap 技术进行前端页面的开发。
3.能够利用 Java 语言的 Jsoup 技术进行网络爬虫。
4.熟悉 Echarts 插件对数据进行可视化展示。
5.了解并使用过关系型数据库(Mysql,Oracle)和非关系型数据库(Redis,Hbase)。
6.熟悉 Spring,Mybatis,SpringMVC 框架进行 SSM 开发,熟悉 MVC 三层架构开发模式。
7.熟悉 Tomcat 服务器,能够使用 Maven 整合的 Tomcat 进行 WEB 开发。可通过 Nginx 对 Tomcat 集群进行负载均衡管理。
8.熟练使用 Xmind,绘制思维导图。熟练使用 PowerDesigner 绘制 E-R 关系图。
python
1.熟练使用python进行文本etl处理。
2.熟练使用python进行数据库连接和etl处理。
3.使用八爪鱼爬虫工具进行爬虫
1.基于文本的用户信息提取分析
● 项目概述:基于 Spark-Sql 等相关技术,研发不同场景属性和非场景属性相关文本提取算法。将非结构化数据转化成结构化数据,设计文本信息提取算法架构,对文本信息进行数据分析和数据挖掘,形成用户特有的人物画像。
●系统架构:离线数据分析:HDFS+Hive+SparkSQL+Hbase+关系型数据库。
2.内部资源整合调用系统
● 项目概述: 融益教育内部资源整合调用系统是针对新一代托管辅导体系为校区内部设计的一套集学案,测试试卷,学员详情,学习状况等功能的内部系统,根据学员的实际情况制定个性化学案,专题训练,帮助同学提高成绩。
●系统架构:学科类网站、教辅定期汇总题型(python提取相关数据进行存储)数据清洗和信息提取(使用脚本/python/java等技术去重,提取相关题目信息,文本格式化)建立学科目录制定专属学案和题目题型分类储存建立教师内部web页面对数据库中的信息进行调用。
3.使用八爪鱼软件进行微博等页面爬虫
4.基于python语言进行文本数据的etl处理
● 项目概述:根据公司使用场景,使用python设计程序,解析文本类原始数据的二次解析和开发。其中用到操作文件、正则表达式、连接数据库等操作。
基于文本的用户信息提取分析 ● 项目概述:基于 Spark-Sql 等相关技术,研发不同场景属性和非场景属性相关文本提取算法。将非结构化数据转化成结构化数据,设计文本信息提取算法架构,对文本信息进行数据分析和数据挖掘,形成用户特有的人物画像。 ●系统架构:离线数据分析:HDF
● 项目概述:文本数据的二次解析开发和应用 ●使用工具:python、mysql ●系统架构:离线数据分析:系统日报-python解析-正则表达式处理-数据入库 说明:根据部门统计需求,将日报中的数据进行提取,使用python正则表达式和相关技术进行解析(etl),将解析后