擅长通过爬虫采集数据,具体为:
1、熟练使用BeautifulSoup和json解析数据;
2、熟练使用cookies和session登录;
3、可通过selenium指挥谷歌浏览器模拟人为操作,破解验证码;
4、熟练使用gevent的多协程功能;
5、会使用scrapy框架;
6、能够使用正则表达式+requests实现原生爬虫;
7、掌握了一定的破解反爬虫的能力。
一、爬取QQ音乐,实现任意歌手歌曲的详细数据收集(歌名,所属MV,歌词,链接,评论等);
二、爬取快递100网站 ,实现输入单号,选择对应快递公司就可以查询最新物流状态(需用cookies登陆,借助快递100的内部数据实现快递单号和快递公司代码的匹配,再通过内部数据实现快递公司代码和快递公司名称的匹配,实现将快递公司名称展现出来供客户选择);
三、爬取饿了么网站,实现任意地区餐厅数据收集(通过破解图形验证码、手机验证码,拿到cookies,使用cookies登陆可免密免验证,获取饿了么的城市经纬度数据,之后正常抓取可采集到餐厅数据);
四、爬取51job前程无忧,实现简历自动刷新,并采集到各地区任意职位的招聘信息。