猿急送>

广州其它兼职程序员

ID：313045

qwer

数据开发工程师

公司信息：
纸落云烟工作室

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
广州
白云

技术能力

 数据采集：熟悉DataX、Maxwell、Flume、FileBeat、Kafka等数据传输采集工具的使用
 数据存储：熟悉HDFS分布式文件系统和Hive数据仓库，以及MySQL、Redis、ElasticSearch等数据库的使用。
 数据计算：熟悉使用HiveSQL对结构化数据进行统计与分析，以及使用Spark和Flink对多种类型的数据进行处理
 编程语言：熟悉Java和Scala基础，熟练使用Python及其常用库Pandas和Numpy进行脚本开发，了解Python爬虫基础。
 数据可视化：熟悉使用Kibana、Echars、帆软Report对数据进行可视化展示
 其他能力：熟悉Linux的常用命令，能够使用Shell编写脚本，

项目经验

2023年5月-至今直播弹幕数据实时分析系统个人开源项目
 项目描述：该项目旨在通过爬取直播平台上的弹幕等数据，使用情感分析技术判断观众对直播内容的态度，并通过实时数据可视化展示观众态度的变化情况。该项目使用了多种开源工具来协同工作，实现了从数据采集到数据展示的整个流程。该项目具有实时性、准确性和可扩展性等特点，能够帮助主播快速了解观众对内容的态度，并据此调整直播内容，提高观众满意度。
 项目架构：FlieBeat+Zookeeper+Kafka+Flink+Redis+Elasticsearch+Kibana
 项目流程：
1. 使用开源爬虫库来爬取直播平台上的弹幕等数据。将爬取到的数据保存为 JSON 文件,然后使用 FileBeat 来监控保存的 JSON 文件，并将文件中的数据实时采集到 Kafka 消息队列中,最大日处理近百万条数据。
2. 基于大连理工大学情绪词典，使用Flink和Jieba分词工具来对采集到的数据进行情感分析。可以判断观众观看直播时的情绪，并进行实时计算。计算结果将被缓存到Redis中。
3. 使用Flink将缓存到Redis中的数据保存到Elasticsearch中。然后使用Kibana来实现实时数据可视化，展示直播平台上观众对内容的态度变化情况。这样，主播就可以根据观众的态度调整直播内容，提高观众满意度。
2022年8月-2023年5月电商数据仓库系统联想校企合作项目实训
 项目主要架构：Flume + Kafka + Hadoop + Hive + Spark + Mysql + Maxwell + DataX + 帆软Report
 主要负责内容:
1. 用户行为采集：通过使用Flume和Kafka采集用户行为日志，我们可以获得用户在电商平台上的行为数据。这些数据被采集到Hive中，有助于企业了解用户的喜好、需求和购买习惯，从而为用户提供更优质的服务和产品。
2. 业务数据采集：通过使用DataX进行全量同步，以及使用Maxwell进行增量同步，我们可以将电商平台上的业务数据同步到Hive中。这些数据有助于企业更好地管理电商平台，例如跟踪订单状态、管理库存和分析销售情况。
3. 数据可视化: 使用帆软Report制作可视化报表，让企业可以更直观地展示电商平台的运营情况。这些报表可以帮助企业快速了解电商平台的业绩、销售情况和用户行为，从而为决策提供有力的支持。

案例展示

直播弹幕数据实时分析系统

 项目描述：该项目旨在通过爬取直播平台上的弹幕等数据，使用情感分析技术判断观众对直播内容的态度，并通过实时数据可视化展示观众态度的变化情况。该项目使用了多种开源工具来协同工作，实现了从数据采集到数据展示的整个流程。该项目具有实时性、准确性和可扩展性等特点，能够帮助主播快速了解观
电商数据仓库系统

 项目主要架构：Flume + Kafka + Hadoop + Hive + Spark + Mysql + Maxwell + DataX + 帆软Report  主要负责内容: 1. 用户行为采集：通过使用Flume和Kafka采集用户行为日志，我们可以获得用户在电