Python NLTK:用于对未标记数据进行分类的监督学习,没有可用的标记数据

时间:2013-03-23 20:12:38

标签: python nltk classification

我正在尝试从文本中提取基于时间的信息,据我所知,标签数据不存在。目标是获取句子并提取有关何时(例如,任务到期)的信息。这可能有多种形式 - 其中一些形式含糊不清(1到12之间的数字是一段时间的常见表示,但当然并非总是如此)。似乎最好的方法是训练分类器来检测这些数据。

然而,虽然NLTK提供了数千个句子,但它没有针对此特定目的的标记数据。我想知道是否有一种合理的方法可以用来手动对某些数据进行分类,这样我以后就可以将其用作分类器的训练/测试数据。理想情况下,它是图形化的,允许点击相关条款,但我希望这是一个荒谬的请求。或者,有没有更好的方法我可以使用,考虑到我可能不想手动分类成千上万的句子?我在这里是在正确的路线上,还是没有标签数据的分类器系统根本不可行?

谢谢, 卡勒姆

0 个答案:

没有答案