示例1:利用爬虫爬取最好大学网清华大学页面的信息:https://www.shanghairanking.cn/institution/tsinghua-university。主要爬取的内容包括:院校基本信息(学校中英文名称、学校官网网址、学校标签、软科点评)、大学排名、在校生毕业生信息、院校满意度、软科中国大学专业排名、软科中国最好学科排名、软科世界—流学科排名、推荐院校等信息。本实验利用selenium爬虫技术通过驱动谷歌浏览器,完全模拟浏览器的操作,来拿到网页渲染之后的结果。这种技术的优点在于不需要预先考虑Ajax方式动态加载的数据,只需要对渲染之后的页面信息直接进行爬取并分析即可。
示例2:利用爬虫爬取太原理工大学新闻页面的信息,目标网址为:http://www2017.tyut.edu.cn/。主要爬取的内容包括:每篇新闻的内容信息,图片信息,并将每篇文章的第一句作为本篇文章的摘要。本实验利用selenium爬虫技术通过驱动谷歌浏览器,完全模拟浏览器的操作,来拿到网页渲染之后的结果。