熟练掌握 Java 语言,具备丰富的开发经验。精通 Python 编程,包括数据分析和自动化脚本编写
熟悉 Hadoop 的生态系统,包括 HDFS 和 MapReduce。
能够使用 Hive 进行数据仓库管理和 SQL 查询。熟悉 HBase 的安装、配置和操作。
实时数据处理掌握 Spark,能够进行大数据处理和分析。
了解 Flink 的流处理和批处理功能,并熟练掌握 flink 处理和分析并与数据库交互。
精通 Pandas 数据处理和分析,能够进行数据清洗和转换。数据存储与管理 具备 MySQL 数据库的设计、
开发和优化经验。
熟练掌握 python 爬虫技术,可以独立完成数据采集数据分析与数据库交互等操作;熟练掌握 scrapy 框
架与 selenium 技术结合爬取数据
熟练使用 Redis 实现实时数据处理的经验,显著提高了程序的速度和性能,成功降低了数据库负载丰富的
大数据和数据分析经验,能够处理复杂的数据集并提供有效的解决方案
本人曾开发淘宝界面用户交互系统,学生管理系统搭建及开发。
网络爬虫从网站循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网
随着社交媒体的快速发展,微博已成为信息传播、舆论形成的重要平台。每天都有大量的话题登上微博热搜,这些热搜话题反映了社会热点、公众关注焦点以及舆论趋势。对于政府部门、企业、媒体等各方面来说,了解微博热搜数据背后的信息具有重要的决策参考价值。数据科学和信息技术的不断进步,为深入分析微
在众多的招聘网站和app中,一些不实的招聘信息可能会误导求职者,浪费时间和精力。其中,网络招聘行业巨头——智联招聘网,智联招聘网是国内领先的人力资源整体解决方案服务商,提供包括网络招聘、校园招聘和智联猎头在内的多种服务。成立30年来,智联招聘拥有超过3.49亿职场用户,合作企业超