差异报告的分类器

时间:2012-11-14 21:24:20

标签: machine-learning nlp classification opennlp

我是ML的新手。我有一个带有注释的差异报告,表明差异和差异差异。示例 -

OLD STRING NEW STRING DIFF ANNOTATION

abc AbC好

pqr xyz bad

lmn wxy good

...

鉴于此训练集,是否可以使用分类器来预测未来差异报告的注释,假设它们具有相似的内容。如果是这样,哪个分类器最适合这个任务?

2 个答案:

答案 0 :(得分:1)

除非您尝试并调整其参数,否则无法知道哪个是“最佳分类器”。如果你是这个领域的初学者,Weka可以帮助你。

答案 1 :(得分:0)

分类器不是魔杖,它可以吸收任何东西并使其有意义。您需要将数据分解为“特征”或“信号”,然后分类器可以检测到它可以用来在将来自动标记数据的模式。鉴于您给我们提供的示例训练集(由3条短线组成),任何人都无法猜测分类器可以利用哪些重复出现的共性来完成其工作。
如果您能够想到计算机可以研究然后用于进行智能猜测的一些潜在信号,则可以自动识别线路可以获得的注释。分类器的最佳选择主要取决于您选择的信号类型。如果每个字符串中都有重复的单词,那么Naive Bayes也许可以解决这个问题,如果你提出的信号形成一个数字向量,那么逻辑回归或svm将是很好的选择。