掌握requests,beautifulsoup,pyquery等库,熟悉正则表达式,熟悉动态加载页面的抓取,熟悉scrapy,pyspider等爬虫框架,熟悉一般反爬虫,字体映射,js混淆等,熟悉代理池,cookie池的构建,了解验证码登录,掌握fiddle,charles等抓包,熟悉pandas数据分析,numpy,matplotlib数据可视化等。
爬取过美国之声voa,cnn,ted等英文网站,爬取过微博淘宝豆瓣等大型网站,熟练使用selenium自动化测试,熟练使用pandas,pandas处理过大量gb级的数据,数据清洗等。