1、熟悉python爬虫技术,熟悉requests、selenium、scrapy、xpath、re等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储。
2. 熟悉scrapy框架,redis,mongodb
3.可以做到静态抓取,动态抓取,以及解码
1.爬取豆瓣电影数据
2.爬取新浪新闻数据
3.爬取淘宝商品数据
主要是爬取淘宝商品的数据,包括商品名称、价格、销量等信息。我使用了Python的Selenium库来模拟浏览器操作,并使用XPath来解析页面数据并对数据进行解析和处理。