了解Python的基本语法、数据类型、流程控制和函数等基本概念;
了解HTTP协议、HTML、CSS等基本的网络知识,理解网页的结构和元素,可以使用Python的爬虫框架,例如Scrapy、BeautifulSoup等,掌握如何发送HTTP请求、解析网页内容、提取数据等技术;
能够从网页中抓取数据,并对数据进行清洗和预处理,使其符合分析需求;
可以使用Python的数据可视化库,例如Matplotlib、Seaborn等,掌握如何将数据可视化展示,制作各种图表和图形。
曾使用Python爬虫框架编写爬虫程序,抓取CCTV1网站的节目单数据,并进行数据清洗和存储;
曾对二手房价格进行数据爬取,并使用precharts库对获取到的数据进行数据可视化,包括地图展示、柱状图、折线图、扇形图等多种图形。
通过使用Selenium库来模拟浏览器操作,访问豆瓣电影网页,并点击“全部正在热映”按钮,进入热播界面。然后,使用XPath解析网页源代码,获取热播电影的链接地址,并将地址保存到data_href列表中。DATA(href)函数通过遍历href列表中的电影链接地址,使用reque
对于要爬取的URL生成一个URL列表,然后通过编写一个函数遍历列表中的每个页面的URL,发送GET请求获取页面的源代码。然后,使用lxml库的XPath解析功能,提取房子的URL,发送GET请求获取房子页面的源代码。之后,使用lxml库的XPath解析功能,提取房子的相关信息,包