我应该如何在包含文本的训练集上使用机器学习分类器?

时间:2014-09-12 12:44:07

标签: java machine-learning nlp classification

我正在通过浏览日志文件来查找错误并预测其可能的原因。 为了在其上应用分类器,我需要将文本作为数字。我可以通过NER识别关键字,并将其用作训练集。任何人都可以建议我这样做吗?

1 个答案:

答案 0 :(得分:1)

Swapnil,人们通常通过将其表示为向量来“制作文本数字”:您枚举您在训练集中看到的所有单词,然后对于文档中的每个单词,您设置一个大的第n个元素向量。这种方法通常称为Vector Space Model 在您的情况下,某些单词和单词组合可能是“特殊的”(如日志消息开头的“错误”和“警告”),您可以将它们分组到矢量的开头,并将它们与来自解释文本 - 例如,就您分配给它们的值而言。 (显然,如果您可以使用命名实体识别检测整个实体,则将每个实体视为向量中的一个元素。)