1、熟悉多线程编程、网络编程、HTTP协议相关
2、开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
3、反爬相关,cookie、ip池、验证码等等
4、熟练使用分布式
5、了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取7*24小时运行,所以需要日志监控,异常维护。)
1、熟悉多线程编程、网络编程、HTTP协议相关
2、开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
3、反爬相关,cookie、ip池、验证码等等
4、熟练使用分布式
5、了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取7*24小时运行,所以需要日志监控,异常维护。)