从事数据分析师岗位4年多时间;擅长内外部数据的抓取、处理、分析、可视化展现;
熟悉excel操作、数据库语言(mysql、sql server)、python数据分析、爬虫、可视化BI报表搭建(tableau、power bi)
了解大数据技术(hadoop、spark、sqoop等)
另外还具有数据运营的思路和方法
社群内容选题项目(知乎问题帖数据爬取分析项目)
此爬虫项目中针对知乎网站页面的异步加载特征和防爬机制,采用了模拟真实访问的请求头,并且构造不同页的json访问地址
对json格式数据进行解析;后续利用词云包对爬取出的数据进行词频分析
利用python爬虫技术爬取知乎上的话题帖数据、并对数据进行词频分布分析 在此次爬虫项目中主要的难点在于模拟真实用户访问,解析异步加载的页面json数据格式、数据的导出
热力图项目,对平台上的商家的地理位置进行热力图分布展示、利用了python的HeatMap包和webbrowser