精通Python ,熟悉常用Linux命令
熟悉MySQL , MongoDB , Redis 等数据库语言
精通requests , Scrapy , Scrapy_redis分布式等爬虫框架,,以及Scrapyd分布式部署
精通正则表达式 , XPath等页面信息抽取技术
精通ajax , js ,手机 APP 抓包等方法
熟悉numpy , pandas库的数据清洗方式
熟悉selenium , pyppeteer , appium等模拟抓取方法
熟悉各类反爬机制的破解方法,有且不限于UA , IP, Cookie 简单验证码, 各类字体加密
项目名称 : 大众点评
项目描述:
爬取酒店 , 美食店铺 的联系方式 、电话 、营业时间 、价格 以及评分
技能描述 : Scrapy_redis + Redis + MongoDB + re + xpath
项目职责:
根据项目需求设计爬虫,使用Scrapy-redis 进行数据采集
破解网站矢量图字体加密方法
用mongodb持久化存储数据
-----------------------------------------------------------------------------------------------------------
项目名称 : 微信朋友圈扫描推送
项目描述 :
根据客户需求,设置要推送的关键字和要推送的群,实时监控朋友圈。当朋友圈出现了关键字时,推送此条朋友圈信息,推送名片,并且编上序号
技能描述 : itchat + appium-server
项目职责 :
用appium 不停刷新扫描朋友圈信息
用itchat 实现推送信息,推送名片
输出朋友圈日志消息
-----------------------------------------------------------------------------------------------------------
项目名称 : 今日头条媒体
项目描述 :
根据客户需求,每天爬取媒体新闻
技能描述 : requests +node
项目职责 :
调试js找到as,cp,signature加密代码
调用nodejs生成加密参数
-----------------------------------------------------------------------------------------------------------
项目名称 : 车类之瓜子二手车
项目描述 :
根据客户需求爬取车名 、车价 、车主联系方式 等参数
技能描述 : Scrapy_redis + Redis + PyExecjs
项目职责 :
分析瓜子二手车的cookies构成,并且使用PyExecjs 对js设置的cookie的破解
设计 scrapy 爬虫解析网页,存储数据到 Redis
-----------------------------------------------------------------------------------------------------------
项目名称 : 微博自动化发送视频文章
项目描述 :
根据客户需求自动发送指定文件夹的视频,并指定标签
技能描述 : Selenium+requests