三年python使用经验,熟练使用flask、django、scrapy、requests、gevent、pycrypto、pytessract、pillow等库。
成熟的爬虫技术,包括爬虫的广度和深度技术:
广度:熟悉爬虫分布式架构,熟悉mysql,mongo、redis等数据库,可以再短时间内爬取大量数据并保存
深度:熟悉常见的JS加密方式,包括RSA、AES等;熟练使用OCR、机器学习等技术进行验证码的识别,熟悉模拟登陆技术
熟练使用python进行高效率的web后端开发、熟悉html、css、js、jquery等前端技术,可以单独完成小型web项目。
1、网易云音乐全部评论爬虫:基于scrapy的分布式爬虫,使用6台服务器完成,爬取速度平均为10req/s
2、私人代理池:爬取网络免费代理,动态的筛选出可用代理,目前可用代理稳定维持在300-400之间
3、负责公司分布式爬虫的开发:此项目目的为动态的对国内前十的P2P平台数据进行监控,爬虫部分为scrapy加redis加mongodb,数据的分析使用numpy、pandas,restfulapi使用flask开发完成。
4、某钢材平台抢货软件:包括验证码识别、模拟登陆、动态变化抢货速率防止封IP,目前在web端和windows客户端运行稳定。