在Reddit上找到低投票的帖子

时间:2012-11-10 13:58:49

标签: python analytics reddit data-analysis

Reddit API提供有关任何特定帖子得分的信息,包括upvotes的数量,downvotes的数量和总得分。我想利用这些信息对故事标题进行一些分析,并最终对故事所链接的内容(自我发布,博客文章,等等)进行尝试,以预测哪些帖子会成为热门,哪些将是一个未命中。

Reddit的API提供了从任何给定的subreddit(包括r / all)中获得最高得分帖子的轻松访问,但是没有一种简单的方法来查找得分较低的帖子,特别是考虑到有不同类型的低分

例如,你可能有一个新的故事,有0分,0分和0分。这个故事是翻牌吗?不必要。这只是新的。然而,由于Reddit的工作方式,一个故事可能有0分,50分和0分。可能是这篇文章很可恶,垃圾邮件或者其他意味着巨响的帖子。我想我需要区分这两种类型的故事以获得更准确的表示。

我希望前10%和最低10%的故事得分明智,所以如果你知道如何找到提交给subreddit的故事总数,我很乐意听到它!

找到分数低的故事的最佳方法是什么?我应该从头版开始并使用强力算法,检查每个故事的起伏,分数,直到我有足够的数据?我需要考虑哪些其他变量?

1 个答案:

答案 0 :(得分:0)

  

找到分数较低的故事的最佳方法是什么?

reddit的search functionality最有可能是找到subreddit或subreddits的低得分提交的最佳选择。不幸的是,似乎分数和投票数(向上或向下)都不包括在索引中。也许如果你在/r/redditdev上提出这个问题,你可以从/u/kemitche得到一个好的答案。

  

我应该从首页开始并使用强力算法,检查每个故事的起伏,分数,直到我有足够的数据?

您可能还想与/u/Deimorz联系,因为Deimorz已经完成了[12],并且可以为您提供问题的答案。

  

我希望前10%和最低10%的故事得分明智,所以如果你知道如何找到提交给subreddit的故事总数,我很乐意听到它!

不幸的是,如果没有监控所有提交给subreddit的提交,或者追溯尝试抓取reddit提交的所有内容(如Deimorz所做的那样),唯一可能的方法就是直接向reddit管理员提问。