标签: web-scraping tumblr pytumblr
我正在为一个班级的数据挖掘项目工作,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,似乎Tumblr API(特别是使用PyTumblr)没有直接的能力来执行此操作,因为它需要特定的博客名称或标记。有没有合理的方法来做到这一点?我最好的想法是从趋势上的帖子中获取博客名称和/或标签,但我不确定这对我们的目的是否足够。我们最终想要一个数据集,可以将其划分为使用指定集合中的一个或多个标记标记的帖子,以及不包含这些标记的帖子。