linux;java和python语言;大数据基础框架:hbase、Hadoop、hive、dfs、mapreduce、spark、sqoop、kafka等;数据分析;爬虫;数据可视化
linux;java和python语言;大数据基础框架:hbase、Hadoop、hive、dfs、mapreduce、spark、sqoop、kafka等;数据分析;爬虫;数据可视化
我在其中负责数据分析。数据存储在hive上,便使用hive进行离线分析,如:每年出现经典电影个数(趋势)、不同地区出现经典电影的数量、每个地区什么类型的出现数量、每部电影的评分高低和冷热的关系(电影冷热由评价人数决定)、不同类型电影平均评价数(可知哪些类型电影热门)等,并使用python做了词云分析。