ID:247022

石振飞卐

爬虫工程师

  • 公司信息:
  • 天极传媒集团
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 其他
  • 全区

技术能力

我主要用Python写爬虫,掌握多线程爬虫,理解http协议掌握理解session和cookies。GET方法和POST方法的区别等,
掌握:
Web前端的知识:HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等;
正则表达式,能提取正常一般网页中想要的信息,比如某些特殊的文字,链接信息,知道什么是懒惰,什么是贪婪型的正则;
会使用re, BeautifulSoup,XPath等获取一些DOM结构中的节点信息;
知道什么是深度优先,广度优先的抓取算法,及实践中的使用规则;
能分析简单网站的结构,会使用urllib或requests库进行简单的数据抓取;

项目经验

项目名称:分布式爬虫爬取北京市企业信用信息网
项目描述:
项目介绍
这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
我的职责
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网

案例展示

  • 高可用ip爬取

    高可用ip爬取

    根据用户提供的网址爬取上面的代理ip, 根据检测手段检测储存可以代理ip,最后分类将代码和打包后的代理ip数据穿给用户

  • 爬取绝对领域

    爬取绝对领域

    对用户指定的网页进行爬取下载, 爬取网页图片, 分包处理最后打包邮件给用户运用到requests模块的get和post网络请求

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服