熟练使用RPC框架,具备相关的分布式开发经验;
具备TCP方面的网络编程经验;
具备WEB方面的开发经验;
熟悉Java 、Python、Groovy等语言的开发,熟悉Linux命令;
深入了解Http协议、web前端相关知识;
掌握网页抓取原理及技术,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;
熟悉常用设计模式,有良好的编码习惯;
掌握验证码识别技术、爬虫高并发技术,流式处理;
1、网易云爬虫
分布式爬虫系统,日抓取量2亿。
2、网易新闻客户端
提供客户端相应的接口,push模块构建。