应用错误收集

有类似问题的尝试 - 一个例子就在这里 - stackoverflow。当您编写问题时，stackoverflow本身会在没有您干预的情况下建议某些标记，但您可以手动添加或删除它们。

开箱即用的分类会因标签数量巨大而失败。您可以通过两个方向解决此问题。

最近的邻居简单，快速，有效。你有一个标签训练集。当新文档出现时，您会查找最接近的匹配项，例如像'标签'，'培训'，'数据集'，'标签'等单词帮助您的问题映射与StackOverflow上的其他类似问题。在那些问题中，机器学习标签就在那里 - 所以建议使用这个标签。最佳实施方式是索引您的训练数据（搜索引擎策略）。您可以使用Lucene，弹性搜索或类似的东西。出现新文档时，将其用作查询并搜索先前存储的前10个匹配文档。轮询他们的标签。对标签进行排序并使用文档的分数来查找标签的重要性。完成。
概率模型想法是分类的，但现成的工具对你没有帮助。检查Clayton Stanley, Predicting Tags for StackOverflow Posts，Darren Kuo, On Word Prediction Methods等作品或Schuster's report on Predicting Tags for StackOverflow Questions

如果您将这个问题作为长期学术项目或研究的一部分，那么研究方法2会更好。但是，如果您需要现成的解决方案，请使用方法1. Lucene 是一个很好的索引工具，即使在生产中也是如此。它最初是在Java中，但您可以轻松找到Python的包装器。另一种选择是弹性搜索， Katta 等等。

P.S。使用标记分数时需要进行大量实验。

主题或标记建议算法

1 个答案: