python基础 爬虫技术,掌握一些库的使用
1. 请求库
requests:这是Python中最流行的HTTP库之一,用于发送HTTP请求。它提供了简单易用的API来发送各种HTTP请求(如GET、POST等),并获取响应内容。
urllib:这是Python标准库中的网络请求模块,包含了多个处理URL的类和函数。虽然requests库更受欢迎,但urllib也是学习网络编程时不可忽视的一部分。
2. 解析库
BeautifulSoup:这是一个用于从HTML或XML文件中提取数据的Python库。它创建了一个解析树,用于从文档中提取数据,并提供了简单的方法来查找和修改元素。
lxml:lxml是一个高效的HTML和XML解析库,支持XPath和XSLT。它比BeautifulSoup速度更快,但在使用上可能稍微复杂一些。MySQL:MySQL是一个流行的关系型数据库管理系统,用于存储和管理爬虫抓取的数据。在Python中,可以使用mysql-connector-python或PyMySQL等库来连接和操作MySQL数据库。Selenium库等。
爬取过多个网站
bian壁纸下载高清壁纸,爬取下载动漫、哔哩哔哩视频、喜马拉雅、好看视频、小说、抖音、斗鱼、新浪财经、知乎
腾讯视频、selenium自动化答题自动化、虎扑、虎牙豆瓣Top250、酷狗音乐、链家房等网站