ID:298406

BlacK.

网络爬虫

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 其他
  • 全区

技术能力

Python中8种数据类型的精通使用;Python匿名函数、列表推导式、装饰器的熟练使用;Python中re、requests、beautifulSoup等库的熟练使用;Python爬虫框架Scrapy的熟练使用;Python爬虫伪装中代理IP、UserAgent的熟练使用;Python与scrapyt-redis分布式爬虫的基本使用;Python操作Mysql数据库增删改查;Python操作MongoDB数据库增删改查;Python建立数据库连接池提高效率

项目经验

项目名称:分布式爬虫爬取北京市企业信用信息网
项目描述:
项目介绍
这个项目是通过scrapy-redis搭建分布式爬虫爬取豆瓣top250,爬取列表页每一项下的子页获取数据
我的职责
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。

案例展示

  • 爬取汽车之家

    爬取汽车之家

    1).对'https://k.autohome.com.cn/suva1/'网址发起请求,获取响应 2).转换格式之后,用xpath解析车名与评分,获取该数据 3).xpath语法解析详情页,获取到详情页的url(url不完整),并对url进行拼接,再对详情页发起请求 响应数

  • 获取斗鱼直播数据

    获取斗鱼直播数据

    通过selenium来完成该项目,模拟点击直播栏目随后获取在线直播栏目里的数据;并进入第二页,获取同样的数据,并将数据以excel的形式保存下来

  • 获取斗鱼直播数据

    获取斗鱼直播数据

    通过selenium来完成该项目,模拟点击直播栏目随后获取在线直播栏目里的数据;并进入第二页,获取同样的数据,并将数据以excel的形式保存下来

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服