应用错误收集

二进制文件分类

时间：2014-12-10 04:58:43

标签： python machine-learning nlp nltk

我知道这是一个非常模糊的问题，但我试图找出进行文档分类的最佳方法。我有两套训练和测试。训练集是一组标记为1或0的文档。如果文档是信息性摘要则标记为1，如果不是，则标记为0。我试图创建一个有监督的分类器。我无法决定使用哪个nlp工具包。我在想nltk。你有什么建议吗？我必须在python中编写分类器。还有任何特定类型的分类器。我一直在做研究，但似乎无法得到一个好的答案。

3 个答案:

答案 0 :(得分：4)

简短的回答是真的取决于。你还没有找到一个很好的资源的原因是因为文件分类，到目前为止仍然是一个相对较新的，知之甚少的领域。问题的真相是，有大量不同的分类器可能起作用，并且实际上不可能说哪个分类器最适合您的特定任务，并且它非常依赖于数据集。

我能给你的最好建议是，运行其中一个分类器通常有两个步骤。第一个是矢量化，它将您的文档放入固定长度的矢量表示中。最常见的是tfidf加权，这在sklearn中得到了很好的实现。此处的具体文档：http://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting

一旦您对输入进行了矢量化，就需要选择分类器和精度指标。至于分类器，我建议您浏览显示here的示例，并选择返回最佳精度指标的示例。

就精确度指标而言，两个最简单的（也有许多非常复杂的替代方案），简单的准确性，AUC，两者都得到了sklearn的支持。 AUC是一个更强大的精确度版本，对类不平衡更加稳健（如果所有示例都为1，则为99.9％，那么仅预测1的分类器不应该是最佳分类器）

这实际上是一个非常广泛的主题，并且有很多内容可以覆盖，但如果你将一些sklearn功能粘合在一起，你应该可以很容易地得到一些可行的东西。

答案 1 :(得分：2)

我一般建议使用Scikit作为Slater建议。它比NLTK更具可扩展性。对于此任务，使用朴素贝叶斯分类器或支持向量机是最好的选择。您正在处理二进制分类，因此您没有多类。至于你应该提取的功能，请尝试unigrams，bigrams，trigrams和TFIDF功能。此外，LDA可能会变得有用，但从更容易的，如unigrams开始。这还取决于您正在处理的文本的类型和长度。文档分类已经存在了十多年，有很多优秀的论文可以找到有用的。如果您有任何其他问题，请与我们联系。

答案 2 :(得分：0)

其他答案很有用且信息丰富，但可能无法解决整个问题。您根据文档分类表达了您的问题，推荐的方法是针对该问题的合理解决方案。但是，如果我正确地阅读了您的问题，那么它并不是传统的document classification问题。问题陈述：

如果文件是资料性摘要，则标记为1;如果不是，则标记为0。

大多数文档分类系统将每个文档分配给一组类中的一个。例如。＆＃39;文件1属于＆＃39;体育＆＃39;课程，文件2在＆＃39; Art＆＃39;，...

您的问题可能更接近textual entailment，它试图辨别另一个（通常是更长的）文档是否隐含了一个文档（通常是简短的声明或摘要）。您也可以稍微调查一下automatic summarization。该字段涉及生成摘要（而您只对评分它们感兴趣），但许多摘要系统还包括评分和排名，用于在一组候选摘要之间进行选择。（发布一系列维基百科链接的道歉，但也许至少有一些标准NLP任务的术语参考将有所帮助。）

问题中没有（目前）解决了另一个关键问题：如果文档x被标记为“信息摘要”，那么它的信息摘要是什么？

例如，请考虑声明：

＆＃34;自动摘要系统试图生成较长文档的简短可读摘要＆＃34;

这可能是上面链接的维基百科页面之一的信息摘要。但它肯定不是其他人的恰当总结！看来您的分类器可能需要访问文档（假设）总结的较大文本，以确定摘要是否合适。

如果您可以访问所述文档，您还可以考虑将问题框定为信息检索任务 - 例如，将候选摘要用作查询，并评分其有用性＆＃39;通过返回结果中的目标文档的排名。如果这种方法可行，您将从Lucene和其他精心设计的IR工具中受益。