熟练掌握 requests 库,以及 scrapy 框架的使用,能够高效的使用爬虫完成任务;
★ 熟练使用 re 模块,xpath,beautifulsoup 等解析规则的使用;
★ 能够完成一些常规的验证码处理;掌握 selenium 上的 chrome,phantomjs 的使用,以及 splash 等操作去解决
一些较为复杂的 js 解密网站;
★ 掌握对数据库 mysql,mongodb,redis 能够正常的使用以及其他操作;
启信宝数据抓取
项目概述: 针对启信宝的一些公司数据进行抓取; 启信宝的数据有很强的封禁 ip 以及账户的措施,字体反爬; 项目成果: 最终通过百度百科的借口访问到启信宝的页面进行数据抓取(不过只能抓取到每一个模块的第一页),
该网站采用的是静态字体反爬,直接可以找到相应的 woff 文件,进行关系映射。
回收宝手机比价
项目描述: 爬取回收宝与爱回收的相关对应手机价格预测结果; 回收宝的网站存在着较为严重的 ip 封禁,以及
sign 签名的操作,同时手机的排列组合过多,需要合适的策略进行过滤;
项目成果: 首先使用了代理 ip 去解决 ip 封禁问题,对该网页进行 js 解密,同时将该网站的 4 个获取步骤进行
分块操作,分布式部署等方法来提高爬虫效率。
这是一个针对日本的没事网站的爬虫分析,爬虫可以在短时间内完成对站点的爬取,并且将数据保存在csv表格中一共用户参考
本项目是使用python框架Django完成的网站设计,有健全的登陆注册,主页,详情页等等,可以完成客户对网站的定制化需求。