熟悉Python和Javascript两门语言
熟悉Javascript、HTML、CSS、正则表达式、xPath等信息抽取技术熟悉抓包分析请求并模拟;
熟悉MYSQL、Redis、MongoDB等关系型、非关系型数据库操作能进行简单的数据库优化;
精通网页爬虫、分布式、多线程开发技术,异步协程,子线程操作等;
具有攻克难题的强烈兴趣,十分喜欢钻研逆向问题,有自己对爬虫独到的理解;
熟悉http协议,熟悉html、dom、xpath等常见的数据抽取技术;
喜欢研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点,提升网页抓取的效率和质量,cookie池维护,拥有大量爬虫逆向经验,对解决js混淆有独到的见解与技术;
精通Scrapy框架各项操作,精通redis分布式爬虫部署各项操作
性格开朗、善于沟通,有良好的自我驱动学习能力,注重效率和团队意识;
我是一只热爱爬虫,热爱编程,热爱爬虫中攻防对抗意义的小虫子。
解决过各大主流电商网站的爬虫 如:淘宝 京东 天猫 苏宁 ,基本上大部分网站都能解决,除了带有瑞数加密的网站稍微麻烦需要点时间之外,其他的网站一律可以解决。
做过淘宝的店家以及详情商品信息的增量式爬取 做到实时更新 做过boss直聘的详情招聘信息的增量式爬取 做到实时更新 做过私募网股票信息以及股票具体详细数据指标 做到实时更新 等等大大小小的案例都做过
私募网的股票数据实时更新增量式爬取以及全局股票数据 苏宁易购的登录协议以及详情商品数据实时增量式抓取