数据采集:熟悉DataX、Maxwell、Flume、FileBeat、Kafka等数据传输采集工具的使用
数据存储:熟悉HDFS分布式文件系统和Hive数据仓库,以及MySQL、Redis、ElasticSearch等数据库的使用。
数据计算:熟悉使用HiveSQL对结构化数据进行统计与分析,以及使用Spark和Flink对多种类型的数据进行处理
编程语言:熟悉Java和Scala基础,熟练使用Python及其常用库Pandas和Numpy进行脚本开发,了解Python爬虫基础。
数据可视化:熟悉使用Kibana、Echars、帆软Report对数据进行可视化展示
其他能力:熟悉Linux的常用命令,能够使用Shell编写脚本,
2023年5月-至今 直播弹幕数据实时分析系统 个人开源项目
项目描述:该项目旨在通过爬取直播平台上的弹幕等数据,使用情感分析技术判断观众对直播内容的态度,并通过实时数据可视化展示观众态度的变化情况。该项目使用了多种开源工具来协同工作,实现了从数据采集到数据展示的整个流程。该项目具有实时性、准确性和可扩展性等特点,能够帮助主播快速了解观众对内容的态度,并据此调整直播内容,提高观众满意度。
项目架构:FlieBeat+Zookeeper+Kafka+Flink+Redis+Elasticsearch+Kibana
项目流程:
1. 使用开源爬虫库来爬取直播平台上的弹幕等数据。将爬取到的数据保存为 JSON 文件,然后使用 FileBeat 来监控保存的 JSON 文件,并将文件中的数据实时采集到 Kafka 消息队列中,最大日处理近百万条数据。
2. 基于大连理工大学情绪词典,使用Flink和Jieba分词工具来对采集到的数据进行情感分析。可以判断观众观看直播时的情绪,并进行实时计算。计算结果将被缓存到Redis中。
3. 使用Flink将缓存到Redis中的数据保存到Elasticsearch中。然后使用Kibana来实现实时数据可视化,展示直播平台上观众对内容的态度变化情况。这样,主播就可以根据观众的态度调整直播内容,提高观众满意度。
2022年8月-2023年5月 电商数据仓库系统 联想校企合作项目实训
项目主要架构:Flume + Kafka + Hadoop + Hive + Spark + Mysql + Maxwell + DataX + 帆软Report
主要负责内容:
1. 用户行为采集:通过使用Flume和Kafka采集用户行为日志,我们可以获得用户在电商平台上的行为数据。这些数据被采集到Hive中,有助于企业了解用户的喜好、需求和购买习惯,从而为用户提供更优质的服务和产品。
2. 业务数据采集:通过使用DataX进行全量同步,以及使用Maxwell进行增量同步,我们可以将电商平台上的业务数据同步到Hive中。这些数据有助于企业更好地管理电商平台,例如跟踪订单状态、管理库存和分析销售情况。
3. 数据可视化: 使用帆软Report制作可视化报表,让企业可以更直观地展示电商平台的运营情况。这些报表可以帮助企业快速了解电商平台的业绩、销售情况和用户行为,从而为决策提供有力的支持。
项目描述:该项目旨在通过爬取直播平台上的弹幕等数据,使用情感分析技术判断观众对直播内容的态度,并通过实时数据可视化展示观众态度的变化情况。该项目使用了多种开源工具来协同工作,实现了从数据采集到数据展示的整个流程。该项目具有实时性、准确性和可扩展性等特点,能够帮助主播快速了解观
项目主要架构:Flume + Kafka + Hadoop + Hive + Spark + Mysql + Maxwell + DataX + 帆软Report 主要负责内容: 1. 用户行为采集:通过使用Flume和Kafka采集用户行为日志,我们可以获得用户在电