掌握python爬虫技术
熟练使用requests库,lxml网页解析,以及常见的生产者消费者模型。
熟悉常见的反爬措施。
曾经抓去过国内的抖音 快手 西瓜视频 等,国外的YouTube. Instagram等
有分析的接口加密的实际经验。
曾在抓去淘宝数据时使用selenium
掌握Python后端技术
熟练使用django框架
对django Auth认证有一定认识
曾使用django rest framework 为前端同事提供API接口
使用celery处理耗时任务和定时任务
Instagram爬虫
需求:抓去博主信息 博主下帖子信息 帖子评论信息
使用python语言,requests模块 threading模块 queue模块 flask框架 mysql数据库 celery模块
实现效果:这套爬虫系统采用生产者消费者模型,requests提供数据请求源,queue负责队列。threading优化程序效率,flask为数据服务,MySQL为存储服务,celery做定时任务处理。