1.Python基础扎实,熟悉常用的类库
2.熟悉常用的数据结构、算法和设计模式等
3.对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解
1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
2、对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些反爬手段,优化自己的程序
3、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解
1.爬取用户的基本信息 2.爬取用户的历史微博记录 3.指定日期阶段内爬取用户所有微博 4.bug 如图0-1所示,实例化时需要传入两个参数,一个是自己浏览器的user-agent。另一个是登录新版微博的cookie值 如图0-2所示,在network里可以找到cook
1、Python处理Excel数据 可以使用pandas、xlwings、openpyxl等包来对Excel进行增删改查、格式调整等操作,甚至可以使用Python函数来对excel数据进行分析。 2、Python处理PDF文本 PDF几乎是最常见的文本格式,很多人有各种处理