1、熟练掌握Java相关知识:集合操作、多线程并发操作、数据库操作、网络通讯等基础知识;
2、熟练掌握目前所熟知的爬虫框架,如轻量级爬虫框架(WebCollector、WebMagic)等,重量级爬虫框架(Nutcher、Heritrix)等;
3、熟练掌握大数据相关知识,例如Spark(SQL、Streaming、MLlib等)、Hadoop(HDFS操作、Hive操作、Hbase操作)等内容;
4、有框架设计、流程优化、程序调优经验。
分布式爬虫开发项目:
1、依赖基础:Kafka消息队列、Zookeeper分布锁、配置中心;
2、编程环境:JDK1.8、集群开发;
3、所需知识:线程并发、程序调优、Debug等