数据分析:
熟悉使用Python语言进行数据分析工作,可以灵活运用pandas,numpy,matplotlib等库;掌握高级的数据分析方法(多维度拆解、AARRR模型、RFM模型等)
有良好的建模能力,能够利用已经处理好的数据,建立模型,将数据的价值尽可能大的发挥出来;
能够定义业务问题,能将业务目标转化为数据分析目标、能分析业务对应产品的分类和服务模式;
掌握数据结构基础,在数据分析过程中合理使用算法提高分析效率;
熟悉Excel、SQL的使用,能利用BI工具(Tableau)按要求完成数据报表撰写。
其它专业技能:
掌握Python后端开发,熟悉使用FastAPI框架;
了解网络爬取技术的使用,通过爬虫自动完成数据获取。
项目名称:社会网络数据采集及分析
主要负责:文本数据分析
技术栈:request+pandas+MySQL+NLP
项目介绍:
利用pandas进行数据清洗,对无效数据、冗余数据、脏数据替换或删除,并对时间序列数据进行格式化,根据需求选择数据纬度。
分析各参会人员的论文主题风格,使用NLP,对论文题目进行专业名词划分、热词统计,通过统计结果并结合现实情况获取每位参会人员的论文风格。
利用request从dblp中检索2022年海峡两岸网络容错与故障诊断研讨会参会人员近3年发表的论文题目,将爬取下来的数据联合业务需求设计数据库并完成数据库的部署工作。