1、熟悉Python、Java,了解perl,有较扎实的编程功底和良好的编码习惯;
2、熟练使用Python多进程,熟练使用消费者/生产者模式,了解队列;
3、熟悉HTTP协议,熟练使用requests请求,熟练使用selenium模拟登陆等操作浏览器行为;
4、熟练使用scrapy框架进行配置抓取;
5、熟练使用正则表达式、BeautifulSoup,了解xpath等网页提取文本内容;
6、熟练使用SqlServer、Mysql、Sybase等关系型数据库,熟练使用并能够优化sql语句,了解
trigger,procedure;
7、熟练使用httpwatch、fiddler、火狐浏览器等解析网站请求的工具;
8、熟练使用Linux相关命令,熟悉ps/awk/crontab,shell编写及MySQL的安装和配置;
9、熟练使用svn、git、cvs等代码版本控制工具;
10、了解MongoDB、Cassandra等Nosql数据库,熟练使用增删改查等操作;
10、了解Web应用相关语言技术,例如:HTML,XML,CSS,JavaScript;
11、了解elasticsearch,建立mapping,对数据的存储操作。
12、熟悉常见反扒策略,能够解决爬虫反爬等问题。
B站,酒店(华住,铂涛,洲际,香格里拉),汽车(瓜子,优信,易车),房源(房天下,贝壳,安居客,58,赶集及开发商楼盘网站等),招聘网站,新闻资讯(中国经济网,新浪资讯等),商品类(京东,寺库,a2奶粉),新浪登录操作,外文网站抓取。