需要爬取https://www.reddit.com/r/wallstreetbets/以下四段时间内的发帖和评论等信息。
并对所爬信息进行初步的清洗。
['2018-01-05 23:54:00', '2018-01-11 12:05:00']
['2018-01-11 11:50:00', '2018-01-23 10:12:00']
['2019-04-30 11:29:00', '2019-06-14 06:15:00']
['2021-03-18 01:19:00', '2021-03-28 03:19:00']
需要熟练使用Python完成程序的编写,并远程协助调试程序完成数据处理。
做事认真负责严谨的人优先,因为相关数据会用于科学研究,并被共享给其他研究人员。(之前的研究助理没有发现上述时间存在数据缺失,所以这次需要复爬。)
熟悉爬取社交网络的人优先。