ID:141352

爬虫工程师

  • 公司信息:
  • 鑫诚达资产管理有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(离职原因)
  • 所在区域:
  • 深圳
  • 南山

技术能力

1. 精通python,熟悉C语言、HTML、CSS、Java,前端架构,了解JS、JQ
2. 熟悉TCP/IP,HTTP等网络协议
3. 精通使用requests、scrapy、selenium,能使用redis实现分布式爬虫
4. 精通网页爬取原理及技术,正则、XPath、bs4技术解析数据,熟练使用代理、延迟下载、简单字符验证码、滑动验证码等反反爬虫技术
5. 熟悉多线程技术,文件IO流
6. 熟悉数据库:MySQL、MongoDB、redis
7. 网络嗅探工具:Fiddler
8. 熟悉Linux基本操作
9. 熟悉XML,JSON解析相关技术

项目经验

项目一:企查查、天眼查、公积金网
项目简介:
根据公司逾期还款的客户提供的注册信息,爬取企查查、天眼查的工商信息,包括工商注册时间、资本、邮箱、法人、电话、注册地址、变更记录等修复信息,爬取公积金网近期缴费信息,提供给相关业务部门,便于催收员根据修复地址催收债务
描述:
1.使用requests、srcapy、selemium等技术编写爬虫程序
2.期间登录和爬取频率过高时需要滑动、点击图片中文验证码,其中登录的验证码使用携带登录信息的cookies避免登录验证码,使用IP代理反反爬验证码,使用超人打码平台破解验证码
3.使用xpath、正则解析结构,并对不规则的数据进行清洗
4.将监控爬取的log日志定向输出到log文件,以便查阅
5.爬取结束后,将处理后的数据存入MySQL数据库

项目二: 赶集网
项目简介:
1.爬取赶集网深圳市地铁周边的租房信息,包括标题、价格、押付方式、户型、房屋配套和描述
2.考虑到信息量比较大,使用scrapy-redis实现url、数据去重,持久化、分布式爬取
3.设置UA、IP代理池,使用随机代理,反反爬技术
4.使用正则匹配url,xpath解析结构,获取对应请求和信息
5.爬取过程中,发现赶集网如果访问过频率,会设有滑动验证码,故设定延迟1分下载反反爬虫
6.将监控爬取的log日志定向输出到log文件,以便查阅
7.将爬取的数据缓存至redis数据库,减少爬取时的IO读写时间
8.爬取结束后,通过pymongo再将数据存入MongoDB数据库

项目三: 拉勾网
项目简介:
1.根据职位关键字搜索,爬取拉勾网对应职位信息,包括职位名称、招聘公司、职位描述、工作福利、工作地址等信息
2.考虑到拉勾网的检测headers、访问频率等反爬机制,使用selenium模拟浏览器爬取每一页的职位信息,规避了繁杂的头部header请求设置,也可避免更换IP
3.使用xpath解析结构,获取对应请求和信息,正则匹配做数据清洗
4.爬取过程中,发现赶集网如果访问过频率,会重定向提示“网关错误”,模拟浏览器关闭错误页面,重新发送请求,继续爬取
5.将爬取的数据缓存至本地CVS文件存储

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服