熟练网络爬虫、python编程语言、数据分析、django框架
熟悉html5、javaweb等常见编程语言
django架构,熟悉scrapy框架以及相关的扩展、熟练使用mysql和redis数据库
链家网:
网站是静态网页数据,请求url地址是可以直接获取数据内容的
相关的数据内容价格、面积、地址、小区名等都包含在li标签里面,通过parsel解析库,进行解析提取数据
最后利用利用scrapy爬虫框架将数据入库到mysql数据库
安居客网:
网站是静态网页数据,请求url地址是可以直接获取数据内容的
在抓取安居客的房源数据时,发现其对ip地址有严格的访问限制
利用scrapy爬虫框架,redis数据库用来批量存储第三方代理ip形成ip池
scrapy爬虫每次爬取安居客数据时轮询的方式从redis中读取可用IP地址爬取数据
import requests from lxml import etree import re def xiangqi(data): html_=requests.get(data['link']) # print(html_)charset=utf-
import requests from lxml import etree import re def xiangqi(data): html_=requests.get(data['link']) # print(html_)charset=utf-