1、熟练掌握Python语言,熟练掌握OOP、多线程、多进程、协程的使用,有规范的编码习惯
2、熟悉掌握Web中的反爬虫手段,可以封IP,输入验证码,响应重复数据,重定向到登录界面,封帐号,限制总量,Js加密等
3、熟练掌握爬虫框架Scrapy开发爬虫程序,熟悉Scrapy的执行原理
4、熟练掌握多种突破反爬虫的手段,如:设置请求头,使用代理IP,Cookie,验证码等,熟悉分布式爬虫的架构设计
5、熟练掌握各种网页源代码解析工具,如:正则表达式,xpath
6、熟练使用Fiddler,Charles等抓包工具
7、熟练使用模拟器和抓包工具来抓取手机APP的包,采集APP端数据
8、熟练使用Chrome开发者工具进行Js加密网站的Js断点调试和破解Js加密
9、熟练掌握scrapy + selenium + chrome 或者 scrapy + splash 的混合使用方法
10、熟练掌握关系型数据库MySQL,熟练使用基本Sql语句,熟悉MySQL事务处理以及事务并发问题,熟悉常见的Sql优化策略
11、熟练掌握非关系型数据库Redis,熟悉Redis的集群搭建,熟练掌握Redis的五种数据类型以及RDB和AOF两种持久化机制
12、熟练使用python操作mongodb数据库进行数据存储与处理
13、熟练使用asyncio异步框架
14、熟悉版本控制共工具git常用命令
15、熟悉HTML、CSS,Js和Jquery等前端开发语言,熟悉Ajax前端开发技术
16、熟悉Linux 基本指令,shell编程,vi操作
17、了解大数据相关的一些知识,比如CDH版的Hadoop集群的搭建,python操作Habase进行数据的存储等
18、了解Numpy pandas 的知识,目前在知识点梳理阶段
19、了解常见机器学习算法(如逻辑回归、SVM、神经网络、决策树、贝叶斯等)、深度学习、NLP等
1、电商网站数据抓取(京东、淘宝、国美)
2、手机App数据抓取(主要抓取了各大手机应用市场的游戏类相关App数据)
3、商标类数据抓取(主要完成马德里商标网数据抓取)
4、各大分类网站数据抓取(百姓网、列表网等)
5、新浪微博接口分析并代码实现相关操作
主要负责商标网站的加密参数分析,并实现商标数据采集 该网站是国际商标网,网站采用了js参数加密技术,会封IP,需要登陆,项目的难点就是建立IP池和破解js参数加密
该作品主要是根据提供的关键字进行搜索,查找跟跟关键字相关的产品,获取产品、店铺相关的信息。主要的是需要建立cookie池,需要破解自动登录的问题。