熟悉 linux 系统使⽤,熟悉 HTML,CSS,JavaScripy,了解Ajax,JQuery 等前端技术
熟悉关系型数据库(Mysql),⾮关系型(Redis,Mongodb等) 的基本操作
熟悉基于 Cookie 的⽹站登录原理
擅⻓使⽤ lxml 模块,Xpath,Json,Re 进⾏数据提取
熟悉 requests 模块和Scrapy 框架及Scrapy-redis 分布式框架,熟悉应对常⻅的反爬措施
熟悉最新的自动化爬虫工具pyppeteer,可以绕过淘宝的滑块验证
通过pyppeteer自动化登陆到淘宝上拿到登陆后的cookie,然后用request请求目标网页,获取商品的基本信息对销量不好的产品进⾏促销活动,对客户的新产品的型号进⾏实时监测,判断商品价格的趋势和⾛向使⽤mysql 数据库进⾏存储数据,使⽤ requests 来发送请求、time 设置延迟等
使⽤ re、random、urllib 等模块,使⽤ scrapy 框架抓取商品的信息,使⽤ ip 池、User-Agent 池来防⽌反爬技术。
获取商品的基本信息对销量不好的产品进⾏促销活动,对客户的新产品的型号进⾏实时监测,判断商品价格的趋势和⾛向 使⽤ mysql 数据库进⾏存储数据,使⽤ requests 来发送请求、time 设置延迟等 使⽤ re、random、urllib 等模块,使⽤ scrapy 框架抓
销售要求将所有⼿机的型号,价格,评论,配置等记录到 csv ⽂件 创建好 scrapy 框架项⽬ 将配置,价格等信息写⼊到 mongodb,并导出⼀个 csv 格式⽂件 使⽤代理 ip、cookie、user-agent 来解决反爬⾍机制