1网页前端的三要素是HTML+CSS+JavaScript,其中HTML中有网页大量的信息,因此爬虫主要是抓取和解析网页的HTML。2爬虫的策略有很多种,比较常用的requests爬取。3get和post方法返回response对象,它是网页的响应内容,并且我们可以根据它返回的内容用合适的方法对它进行解析。
豆瓣电影、书籍、小组、相册、东西等爬虫集
爬取网易云音乐热歌榜
爬取抖音视频等等
表情包网站上图片
登录时的验证码
B站视频和弹幕批量下载
采集网易云音乐 提高人工下载效率 轻松获得大量数据 采集抖音短视频 获取抖音平台原视频 提高利用率。
使用多线程分布式采集 大大提高采集效率 对其进行分析 得到观众的反馈 对多个视频站点都进行采集 数据多 所以采用分布式。