熟悉 Mysql/Redis,HTML/CSS/JS,Requests/Xpath/BeautifulSoup/selenium
Python Flask Django jmeter Appium Fiddler
了解爬虫与反爬虫的一些方法和手段
主要是对合作商提供的系统(DMS)的信息进行抓取,采用 scrapy-redis 分布式实现。windows7 作为 Master 端,管理多个 Linux slave 端爬虫集群。
分布式使用 Redis 做为缓存数据库,利用 Redis 的高并发和 I/O 读写来实现高速下载。
开发环境:Ubuntu 16.04 、scrapy 框架、scrapy-redis 分布式组件、redis 3.2 虚拟环境
1. 编写爬虫程序。
2. 解决抓取过程中反扒机制严重需要分析协议,加密,封账号,封 IP,还有验证码等问题。 3. 解决抓取过程中发现有些信息均为 JS 动态加载的,导致信息抓取不完整等问题。
4. 处理登录,数据提取,数据存储,维护代理 IP 等。