ID:162495

Cloud_Paul

爬虫工程师

  • 公司信息:
  • 广州潮汐信息科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 广州
  • 荔湾

技术能力

 熟练掌握urllib、requsets、Fiddler工具、selenium、chromedriver工具、
 熟练掌握re、Xpath、beautifulsoup、页面解析库
 掌握验证码识别技术
 熟练掌握字体反爬、CSS反爬技术
 熟练掌握ip池、cookie池的搭建
 熟练掌握scrapy框架,scrapy-redis分布式断点续爬技术
 熟练掌握html,JavaScript语言、以及JQuery
 熟练掌握MySql、MongoDB、Redis数据库
 熟练掌握网络编程、进程线程、协程等知识
 熟悉了解numpy库,能绘制简单的数据分析图
 熟练windows/Linux开发环境;
 熟练掌握python语言基础,面向对象编程思维
 熟练掌握Flask、Django服务器框架

项目经验

项目一:大众点评爬取系统
项目环境:windows10+python3.5+pycharm
项目描述: 抓取指定商家的名称、店铺星际、评论数、人均消费价格、店铺地址
项目难点:css字体加密反爬、且不定时切换两套不同的反爬机制
项目开发过程:
反爬种类一: svg字体反爬
解决过程:抓取css文件中的svg文件,解析svg文件,根据x,y偏移量可计算出文字在SVG源文件的索引值,再生成映射关系字典,替换被修改的字体。
反爬种类二: woff字体反爬
解决过程:抓取css文件中的woff文件,用FFfont库以及第三方图片识别接口解析woff文件,生成文字映射关系字典,再做替换。


项目二:微信公众号爬取系统
项目环境:windows10+python3.5+pycharm+fiddler
项目描述: 爬取指定微信公众号的所有的文章以及对应的评论、阅读量、点赞量
项目难点:抓包寻找每个公众号以及每篇文章的标识符,cookie的时效性,以及访问评率限制
项目开发过程
1.通过抓包发现,请求头中的biz、appmsg_token参数是每个公众号的标识符
2. 通过抓包发现,请求头中的mid、idx参数分每篇文章的标识符
3. 分析返回json数据的结构,提取响应的信息

项目三:抖音小视频爬取系统
项目环境:windows10+python3.5+pycharm+fiddler
项目描述: 爬取指定用户发布的所有视频
项目难点:抓包、寻找视频的下载url、以及关键参数
项目开发过程
用fiddler工具抓包,先寻找下载视频的url,再寻找某个用户名下所有的小视频的id号,将
1. 通过抓包分析,爬取文本信息不难,难点是找视频下载地址
2. 在返回的json数据中发现下载视频的url其实在分析连接里面
3. 找到视频下载url后,根据视频的id编号发送请求即可完成爬取。

相似人才推荐

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服