ID:177273

A 颖

爬虫工程师

  • 公司信息:
  • 择居网络技术有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

曾任职爬虫工程师3年,了解常见反爬虫策略及应对措施。
基本技能介绍如下:
1:熟悉windows与linux系统环境及相关配置。
2:熟练使用Requests网络库及Selenium测试工具
3:熟悉通过抓包及提交表单的方式提取数据。
4:熟悉各种反爬虫策略以及应对措施。
5:了解Scrapy框架下进行分布式爬虫开发及部署与监控
6:熟悉使用Scrapy crawlspider模板下进行通用爬虫开发及配置
7:灵活运用各种解析库,如正则表达式,Xpath,Css以及BeautifulSoup
8:熟悉使用scrapy-redis+BloomFilter的方式实现增量爬取
9:常用数据库:Mongodb, reids,可使用mysql实现基本操作。
10:了解前端Html,Css,及简单Js语句。
11: 个人可解决简单验证码识别。
12:了解wordpress,并拥有自己的个人博客
责任描述:负责抽取所需数据,清洗数据后根据需求存储。
常用工具:Pycharm, Selenium,Docker,Chrome,Mongdb,Fidder

项目经验

抓取公众号文章

项目描述

责任描述:
1:微信群发页面通过抓包获取接口信息
2:填写要抓取的公众号
3:使用Selenium模拟登陆自己的公众号获取Cookie并下载到本地
4:构建UA,读取本地Cookies并同过Requests上传到服务器
5:分析接口参数观察参数规律
6:将参数写入Data并同Requests传入
7 : 再次分析接口参数并传给新的url实现分页效果
8 : 获取公众号文章链接并抓取页面
9:通过BeautifulSoup对文章信息抽取及过滤
10:将公众号标题与文章进行存储

项目简介:
该项目通过输入要抓取的公众号,对该公众号发表的所有文章进行抓取。
优化文章结构后存储。

抓取北京区住建委数据2017.10-2018.3
项目描述

责任描述:
1,配置项目所需环境
2,分析网站制定爬虫系统结构
3,解析页面编写rule爬虫规则
4,根据需求构建item字段
5,编写spider获取数据
6:维护爬虫系统,根据需求添加rule及item字段
7:清洗并存储数据。
项目简介:
该项目抓取北京市住建委数据。
主要内容有数据统计,规划计划,标准规范等。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服