熟悉Python 语言,熟练使用Python常用模块
熟悉Linux系统,了解常用的shell命令和vim命令
了解网络通信基础
熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理
熟悉Python与数据库(mongodb,redis,mysql)交互存储
熟悉Python爬虫开发使用的XPATH,CSS, 正则等数据抽取技术
使用Selenium模拟网页进行动态网页数据的爬取,熟悉一般的多线程数据爬取
熟悉使用Scrapy框架实现爬虫,数据保存入库
熟悉数据库SQL语句
使用Scrapy实现知乎模拟登陆,并爬取所有问题字段和回答字段
使用Scrapy爬取伯乐在线所有文章信息异步保存入mysql数据库
寻找天猫数据接口,使用Scrapy爬取天猫某品牌商品价格,名称,id,销量数据并保存
使用多线程和队列实现爬取豆瓣电影数据并保存进mongodb数据库
使用Scrapy框架爬取北京公交网保存入redis数据库,并从redis数据库中取出数据保存进mongodb来实现数据持久化
爬取多个免费代理IP网站,获取免费代理IP并检测可用性,并使用Django做成接口API,开启服务后可随时调用接口获取可用代理,并优化结构