会xpath、正则、异步、scrapy框架 、json数据抓取、 selenium、
Python
Python中re、requests等库的熟练使用
爬虫伪装中代理IP、UserAgent的熟练使用
Python与scrapyt-redis分布式爬虫的基本使用
Python操作Mysql数据库增删改查
Python操作MongoDB数据库增删改查
抖音个人信息点赞数标题视频网址,好6v电影数据爬取,豆瓣电影数据爬取,房天下,搜狗百度,b站刷弹幕,虎扑数据爬取,中国环境网等多数网址爬取数据
基于Selenium的12306自动刷票软件
基于Scrapy爬取伯乐在线网站存入mysql数据库
这里是使用selenium以及xpath来爬取抖音个人主页的一些数据 博主的网名 粉丝数量 及其视频标题和视频地址
这个案列用的是爬虫的scrapy框架爬取的 用到了selenium xpath 管道接收后保存到数据库中
这是使用selenium 进入到中国环境网的详情页面 进行详情页的数据爬取 文章的正文、标题和文章发布时间
用requests 模块发送请求后 伪装cookie、UA、获取到源代码之后 使用正则进行抓取,拿到数据后将图片转换为二进制放到文件夹当中