python爬虫,掌握selenium,requests,lxml,xpath,scrapy,re正则表达式,反反爬技巧,ajax动态加载,单线程加异步协程,验证码识别模拟登陆等操作
熟悉Linux环境和命令
熟悉 HTTP
有Fiddler抓包使用经验
熟练使用xpath,css selector进行页面解析
熟悉Session,Cookie
熟悉版本工具Git
有较强的动手能力,能够借助各类工具辅助,帮助自己解决遇到的各类问题
58同城二手房
项目描述:爬取相关二手房的信息,包括二手房位置,占地面积,房价等
动漫之家
项目描述:一个看漫画的网站,采用js反爬,可用re模块进行正则表达式匹配目标字段,爬取目标漫画的所有章节并分进行本地持久化存储
国家药品监督总局
项目描述:该网站采用ajax动态加载,可以用抓包工具抓取XHR数据包进行爬取也可以用selenium模块直接进行爬取该网站的企业名称,许可证编号,发证机关,发证日期以及企业住所和企业负责人等信息
豆瓣电影
项目描述:该网站也是ajax动态加载,爬取排行榜名称及评分