ID:335756

爬虫工程师

  • 公司信息:
  • 深圳黑海信息科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 深圳
  • 龙华

技术能力

1.熟练掌握requests等请求库;
2. 熟练掌握xpath、正则表达式等定位语句
3. 熟练掌握python异步、asyncio、aiohttp、aiomysql等异步库
4. 熟练掌握scrapy、scrapy-redis等爬虫框架
5. 熟练掌握mysql、mongodb等常见数据库
6. 了解常见加密算法(rsa/des/aes/md5)
7. 了解常见反爬手段和机制(js混淆/webpack/ip封禁/)
8. 了解常见反爬手段的解决方案(日志插装调试/加密定位/调试干扰/补环境/ip封禁/扣代码)

项目经验

腾讯招聘、阿里招聘
项目描述:爬取腾讯招聘和阿里招聘的岗位名称、信息
责任描述:编写爬虫程序,想出反反爬策路,数掘清洗,分表存储,维护代理ip池
项目简介:
1. 爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化、分布式比较方便
2. 采用隧道动态ip进行采集数据
3. 需要抓包并查找到对应的response
4. 数据保存在json字符申中,转化成python字典,提取数据
5. 在scrapy管道模块中,将数据保存到MongoDB
6. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
豆瓣、猫眼
项目描述:爬取豆瓣、猫眼电影名称、评分、导演主演和评论等信息
责任描述:编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip
项目简介:
1. 分析网页结构和所需数据的量,数据量少使用requests爬取
2. 使用浏览器开发工具对网页进行抓包,获取想要的数据
3. 对分析所获取的接口进行请求,将提取的数据存储为字典
4. 使用redis和hashlib模块,对数据做去重处理
5. 使用MongoDB和CSV对数据做持久化处理
6. 使用logging模块编写监控程序进行爬由监控,并根据日期定向输出日志到log文件

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服