猿急送>

北京其它兼职程序员

ID：192191

封鹏飞

爬虫工程师

公司信息：
权大师

工作经验：
3年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
昌平

技术能力

1、熟练掌握Python语言，熟练掌握OOP、多线程、多进程、协程的使用，有规范的编码习惯
2、熟悉掌握Web中的反爬虫手段，可以封IP，输入验证码，响应重复数据，重定向到登录界面，封帐号，限制总量，Js加密等
3、熟练掌握爬虫框架Scrapy开发爬虫程序，熟悉Scrapy的执行原理
4、熟练掌握多种突破反爬虫的手段，如：设置请求头，使用代理IP，Cookie，验证码等，熟悉分布式爬虫的架构设计
5、熟练掌握各种网页源代码解析工具，如：正则表达式，xpath
6、熟练使用Fiddler，Charles等抓包工具
7、熟练使用模拟器和抓包工具来抓取手机APP的包，采集APP端数据
8、熟练使用Chrome开发者工具进行Js加密网站的Js断点调试和破解Js加密
9、熟练掌握scrapy + selenium + chrome 或者 scrapy + splash 的混合使用方法
10、熟练掌握关系型数据库MySQL，熟练使用基本Sql语句，熟悉MySQL事务处理以及事务并发问题，熟悉常见的Sql优化策略
11、熟练掌握非关系型数据库Redis，熟悉Redis的集群搭建，熟练掌握Redis的五种数据类型以及RDB和AOF两种持久化机制
12、熟练使用python操作mongodb数据库进行数据存储与处理
13、熟练使用asyncio异步框架
14、熟悉版本控制共工具git常用命令
15、熟悉HTML、CSS，Js和Jquery等前端开发语言，熟悉Ajax前端开发技术
16、熟悉Linux 基本指令，shell编程，vi操作
17、了解大数据相关的一些知识，比如CDH版的Hadoop集群的搭建，python操作Habase进行数据的存储等
18、了解Numpy pandas 的知识，目前在知识点梳理阶段
19、了解常见机器学习算法（如逻辑回归、SVM、神经网络、决策树、贝叶斯等）、深度学习、NLP等

项目经验

1、电商网站数据抓取（京东、淘宝、国美）
2、手机App数据抓取（主要抓取了各大手机应用市场的游戏类相关App数据）
3、商标类数据抓取（主要完成马德里商标网数据抓取）
4、各大分类网站数据抓取（百姓网、列表网等）
5、新浪微博接口分析并代码实现相关操作

案例展示

TradeMark(商标数据获取）

主要负责商标网站的加密参数分析，并实现商标数据采集该网站是国际商标网，网站采用了js参数加密技术，会封IP，需要登陆，项目的难点就是建立IP池和破解js参数加密
淘宝

该作品主要是根据提供的关键字进行搜索，查找跟跟关键字相关的产品，获取产品、店铺相关的信息。主要的是需要建立cookie池，需要破解自动登录的问题。