1.熟练使用xpath、re、json模块进行数据抓取
2.熟练使用MySQL数据库,熟悉Navicat、MongoDB等数据库
3.有充足的编程能力,了解计算机网络、数据结构,Http/Https协议
4.掌握常见的爬虫、反爬虫知识及应对措施;了解Linux系统
5.熟练掌握request库,Scrapy框架,了解scrapy-redis分布式组件
6.熟悉HTML、CSS、JavaScript等web前端技术
项目:Spider Book
项目描述: 爬取各个大型图书网站,如新华书店图书网,在线网上图书一号店等。获取它们图书的名称,简介,购买量,评论量,评论数据,价格等,存入数据库。
项目技能: requests,Xpath,json,Redis,MongoDB,re
个人职责:1.使用requests模块,发送http请求,使用协程进行爬取网页,提高爬虫效率
2.分析需要爬取的数据,发现在ajax请求中,数据格式为json。使用re模块在返回的response.content中匹配需求数据,获取到数据
3.自定义get_ua函数,,调用get_ua随机获取user-agent,对request对象来进行包装,应对反爬
4.调用代理ip池,获取代理ip
项目:新闻分类资讯 项目描述:该项目主要爬取各网站新闻的热门,头条,时事热点等信息 项目技能:scrapy_redis,Xpath,Redis,json 个人职责:1.分析url地址,分析反爬策略,实现反反爬抓取数据。在下载中间键(Downloader)的_proc
项目:新闻分类资讯 项目描述:该项目主要爬取各网站新闻的热门,头条,时事热点等信息 项目技能:scrapy_redis,Xpath,Redis,json 个人职责:1.分析url地址,分析反爬策略,实现反反爬抓取数据。在下载中间键(Downloader)的_proc