能够处理大量数据,清洗数据中的错误、缺失值等,确保数据质量。能够使用数据可视化工具(如Tableau、Power BI、matplotlib等)将数据转化为图表或图形,帮助他人理解数据洞察。熟练掌握Python编程语言,能够用于数据处理、分析。数据分析领域不断发展,需要保持学习状态,关注新技术和方法的发展。
图书网站热门图书抓取项目。抓取图书的名称,作者,封面和价格,运行结果为json结构保存,根据要求自定义所要抓取图书的数量
对当当网络的热门图书进行数据抓取和数据清洗,抓取网站中的相关信息,对信息分类排序合并储存为json格式,并设置自定义抓取内容的长度
b站每周必看项目视频的抓取,抓取视频名称,封面和连接,对抓取的数据进行数据清洗遍历排序储存解码封装,根据要求格式储存