熟悉HTTP/HTTPS协议,TCP/IP网络协议。
掌握常见的爬虫,反爬虫相关的知识机器应对措施。
熟练使用python lxml,re,json模块进行数据提取。
熟悉XPath语法规则和 CSS Selector的使用方法
了解Tessreact机器图像识别系统,并处理简单的文字验证满
熟练使用Selenium 实施动态HTML数据抓取
掌握scrapy框架,一极编写各类中间件
了解scrapy-redis分布式框架,了解各组件工作机制
熟悉fiddler抓包工具的使用,能够获取到动态生成的页面、
实现过有道翻译和百度翻译的接口链接,能对接有道翻译/百度翻译
实现过各大音乐网站的爬取
能够进行简单的gui页面制作、