应用错误收集

我正在一个有很多故事的网站上工作。所有格式的故事：文本，视频，照片和其他多媒体元素。故事可以在各种基础上过滤，其中一些是“新的”，其中显然将首先包含最新故事，“特色”故事将被标记为手动和“流行”特征，我需要提出算法。

到目前为止，我正在做的是平均Facebook喜欢，股票数量（包括facebook，twitter或任何其他股票）和观看次数。但这对我来说并不好看。因为对于所有三个指标给予相同的权重年龄并不是真正的原因，如社交垃圾邮件等。

期待一些非常好的算法来排列故事的流行度。

---- -----加

Popularity Algorithm仅基于“喜欢”讨论算法，并且该算法基于对时间戳类别中的结果进行分类：在日，周和月中流行。而This有一个答案几乎可以回答我的问题但不完全是因为那里的指标是假设的。我正在寻找一些具有真实解释的精确指标。例如“facebook * 2”，解释为什么* 2为facebook。我希望我现在不要重复！

我建议您尝试使用 regression algorithm 。最广泛使用的是linear regression，但如果该模型不适合 - 随意探索其他模型。

首先，确定每个故事的特征。你的功能是喜欢，推文，分享，观点......我还会添加一个布尔指标（每个类型的变量，可以是值0或1）（视频/照片/...).
接下来，创建一个训练集 - 这是一组故事你（或其他人类专家）给你的分数。
现在，使用这些功能和训练集 - 使用一些回归算法创建最适合您所需功能的模型你已经得过的例子。¹
拥有模型后 - 您可以使用它为所有其他模型提供分数文档。

关于垃圾邮件发送者检测 - 您可以尝试异常检测算法

（1）实际上，步骤2和3可以一起完成 - 使用主动回归技术 - 在主动回归中，学习者（算法）会要求您提供能够尽可能快地学习算法的示例。从我的实验中PAlice是一个表现非常好的主动回归算法。

基于喜欢，分享和观看的最流行帖子的算法

1 个答案: