数据工程师
数据收集和集成:
从各种来源收集数据,网络爬虫
设计和实现ETL(提取、转换、加载)流程
整合不同系统和格式的数据
数据存储和管理:
设计和优化数据库架构
管理数据仓库和数据湖
数据处理和转换:
清洗和预处理原始数据
开发数据转换和处理管道
实现数据质量检查和验证
大数据技术应用:
使用Hadoop、Spark、nifi等大数据工具
开发和维护分布式计算系统
优化大规模数据处理性能
1.网络爬虫 h5,JavaScript,web端 熟练掌握request,bs4,selenium,scrapy,playwright 等技术来
2.数据处理分析可视化 文本预处理:包括文本清洗、分词、去除停用词和标点符号等。并将文本转化为可处理的形式。特征提取:将文本转换为数值特征表示形式,以便应用机器学习算法。Matplotlib,Seaborn,Plotly,echarts 数据可视化
3.各种算法,编译原理状态转换器,二叉树,对图片的处理,自动白平衡算法,粒子群算法,bp神经网络,遗传算法,牛顿迭代,数据可视化,机器学习数据挖掘等等
---------------------------------------------------
接的项目是比较小的以上面的为主
封装了4个api接口: 1. 爬取单链接: api接口:http://127.0.0.1:5000/api/v2/single/link 默认:{ url_type: single, max_depth: 0 } 用户传入 post请求 start_url 2. 根据
数据同步 同步aws 的s3文档,实时转成PDF并上传到astra DB 用户上传文件(txt,pdf,doc,excel等)到s3,实时使用nifi读取到本地,再进行监控转成pdf,上传到astra DB