应用错误收集

我应该如何在包含文本的训练集上使用机器学习分类器？

时间：2014-09-12 12:44:07

标签： java machine-learning nlp classification

我正在通过浏览日志文件来查找错误并预测其可能的原因。为了在其上应用分类器，我需要将文本作为数字。我可以通过NER识别关键字，并将其用作训练集。任何人都可以建议我这样做吗？

1 个答案:

答案 0 :(得分：1)

Swapnil，人们通常通过将其表示为向量来“制作文本数字”：您枚举您在训练集中看到的所有单词，然后对于文档中的每个单词，您设置一个大的第n个元素向量。这种方法通常称为Vector Space Model 在您的情况下，某些单词和单词组合可能是“特殊的”（如日志消息开头的“错误”和“警告”），您可以将它们分组到矢量的开头，并将它们与来自解释文本 - 例如，就您分配给它们的值而言。（显然，如果您可以使用命名实体识别检测整个实体，则将每个实体视为向量中的一个元素。）