1、熟悉python、熟练运用scrapy框架
2、熟悉javascript,能进行js逆向工程
3、熟练运用docker进行分布式爬虫部署
4、精通玩也抓取原理及技术细节,精通xpath,css,正则表达式,从结构化的和非结构化的数据中获取信息,对网页抓取、信息抽取、去重、清洁、匹配经验丰富
5、熟悉mongodb,mysql数据库
1、运用伪分布式爬虫,爬取了京东所有商品信息。
2、运用代理池,cookie池,爬取了智联招聘所有招聘信息
3、运用js逆向技术,实现了企业信用系统的自动登录
4、运用js逆向技术,实现了美团登录的关键参数的逆向工作
本项目独自一人完成。获取京东商城的信息不难,难的如何快速获取全部信息,该网站每类商品下分成若干页,每页由两小页构成,前小页可以直接由url直接获取,而第二小页则是ajax请求。
本作品的目的是实现meituan快速登录,构建cookie池。在本项目中,我只负责h5Fingerprint参数的逆向工作