1.爬取用户的基本信息
2.爬取用户的历史微博记录
3.指定日期阶段内爬取用户所有微博
4.bug
如图0-1所示,实例化时需要传入两个参数,一个是自己浏览器的user-agent。另一个是登录新版微博的cookie值
如图0-2所示,在network里可以找到cookie值和user-agent。实例化时传入参数即可。
1.爬取爬取用户的基本信息
最近在追一个剧,就拿剧中的女主的账号尝试一下。嘻嘻嘻
uid = 5372556014
下面上代码
kkk。可以看到数据出来了,虽然不知道有没有反爬,不过成功了。后边还有数据没有看到,不过还是不错的。
2.爬取用户的历史微博记录
其实就是爬取用户在那一年那个月发过微博,获取的历史记录就是个日期而已
直接上代码吧!!!
数据是字典形式出现的,可以看出来我们的女主微博账号在2015年12月发过微博,2016年1-12月都发过微博,后边还有不过看不到了,
3.指定日期阶段内爬取用户所有微博
指定日期肯定需要传入时间参数了,所以这个就需要传入两个参数。看看吧
日期的格式是一定的,就是2021 04, 当然了这里没空格。数据有文案,时间,编号等....
4.bug
这个新版微博还是不错的,反爬肯定会有的,所以五秒请求一次,对服务器是完全没影响的,人为请求应该都比代码快把哈哈哈哈哈。另外,这里的数据我都是用字典保存的,可以方便使用的时候用自己想用的文件格式保存。爬取《3.指定日期阶段内爬取用户所有微博》部分时,数据是生成器返回,所以遍历输出就能看到。