爬虫技能:
熟悉使用Xpth、BeautifulSoup、re、json模块进行数据提取。
熟练使用Python urllib2、Requests等网络模块.
了解Tesseract机器图像识别系统,并处理简单的文字验证码.
熟练掌握Scrapy框架,以及编写各类中间件.
熟练掌握scrapy-redis分布式框架,了解各组件工作机制
了解熟练使用Selenium+PhantomJS实现动态HTML抓取 。
web技能:
熟悉HTML、CSS、jQuery等前端页面的制作
数据库技能
熟练使用MySql/Redis/MongoDB数据库
Python
Python 基础扎实,有良好的编码习惯及编码风格
项目1:对去哪儿酒店信息进行爬取
这个项目是通过selenium对去哪网酒店的酒店名称,酒店地址,酒店价格,酒店开业时间,酒店房间数等进行爬取。
项目2:对百度文库进行文档内容爬取
这个项目是通过selenium携带cookie对txt,PDF,PPT,Word格式等进行爬取,并进行相应的保存
项目名称:通过selenium爬虫爬取去哪酒店信息,并写入CSV文件 项目描述: 项目介绍 对去哪网页面时,发现网页源码无需要信息,为此需要selenium进行页面数据获取,以便用户能够实现一键自动爬取。 我的职责 1,采用selenium进行发起请求。 2,通过
项目名称:通过selenium爬虫爬取百度文库 项目描述: 项目介绍 对百度文库页面分析时,发现需要登录后才能看到相关文本内容,源码页面无所需内容,为此需要selenium并携带登录cookie内容,对百度文库相关信息进行爬取,爬取内容格式包括txt,PDF,PPT,W