挽风的案例列表

分布式爬虫爬取北京市企业信用信息网

企业服务-数据服务 挽风

这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据 我的职责 首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。 同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中, 最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。 其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网...

分布式爬虫爬取北京市企业信用信息网
分布式爬虫爬取北京市企业信用信息网

通过异步爬虫爬取HGMD

企业服务-数据服务 挽风

1,采用asyncio+aiohttp以达成高并发,异步请求。 2,通过timeout设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。 3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略 4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中...

通过异步爬虫爬取HGMD
通过异步爬虫爬取HGMD
------ 加载完毕 ------
联系需求方端客服