任务介绍
需求分析
爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。
链接:https://movie.douban.com/top250
三步走
获取数据(常用Urlib2,Requests,aiohttp,elenium)
解析数据(常用pyquery,Beautifulsoup,xpath,re)
存储数据(常用mysql,xlwt等)
反扒措施
header: 爬虫请求头与浏览器保持一致
动态页面: 查到页面内容的request
用户: 每次请求间隔几秒,或使用代理服务器
cookie: 禁止cookie