熟悉python爬虫技术,熟悉requests、selenium、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储;熟悉MySQL,mongodb数据库,能够高效的存储数据;熟悉一些反反爬手段,比如验证码,滑动验证码的破解,JS逆向,IP代理池的使用及其维护,了解flask框架。
曾经抓取过某东商品大量的数据,商品评论,销量;某宝商品的大量评论,对各个商品的销售情况进行分析;使用移动端爬虫对某音乐的大量数据进行了抓取,使用分布式和代理池进行大量的数据抓取。
角色 | 职位 |
负责人 | python数据分析 |
队员 | 后端工程师 |
一个人负责所有的工作,对某东python相关的书籍的销量好评进行爬取。使用到的技术有requests,bs4,re,csv,还有一些破解反爬的手段,破解验证码。
通过爬虫获取去淘宝商品数据,并分析。获取商品的销量,评论,好评率来分析数据,主要用的技术有scrapy,Mongodb存储数据,然后通过pandas进行数据分析