目前掌握以下技术:
1、熟悉主流爬虫框架 scrapy
2、定向数据的采集,可以从各种结构化和非结构化数据中抽取有用的信息
3、熟练使用抓包工具fiddler,及requests、beautifulSoup、正则、xpath、CSS等
4、对主流电商平台(淘宝、天猫、东方购物、智联、51job、新浪)等平台进行过信息的抓取和分析
5、针对各类网站的反爬机制和验证码机制,可以设计爬虫策略和防屏蔽规则,解决封账号、封IP等难题,并掌握了基于Cookie的登录原理
6、熟悉多进程分布式爬虫,可操作海量网络爬虫,进行网页去重、网页信息抽取等
7、熟悉深度优先算法与广度优先算法
8、熟悉Mongodb,有Redis的使用经验
一、招聘网站爬虫(智联、拉钩、前程无忧,百姓网)
项目简介:
该爬虫运用scrapy框架,在招聘网站进行登录,然后搜索工作,抽取网页信息(职位详情及联系人信息),可实现筛选简历,并自动进行简历投递
二、淘宝商品信息抓取
项目要求:输入关键字,通过淘宝网获取商品信息
1、使用ip代理
2、最终可实现定向精准搜索,搜索结果可按人气、销量、价格等排列
3、通过销量排序,选择销量第一的商品获取用户评论(异步加载)
4、对用户评价进行词云分析
三、东方购物商品信息抓取(约50万)
项目简介:
爬取网站:东方购物
责任描述:使用scrapy框架,负责爬虫脚本的编写,主要解析网站数据结构,设计防爬策略,网页信息抽取,数据存储入库
目标:通过抓取首页各大分类下的商品链接,获取所有详细商品信息