应用错误收集

我正在尝试从文本中提取基于时间的信息，据我所知，标签数据不存在。目标是获取句子并提取有关何时（例如，任务到期）的信息。这可能有多种形式 - 其中一些形式含糊不清（1到12之间的数字是一段时间的常见表示，但当然并非总是如此）。似乎最好的方法是训练分类器来检测这些数据。

然而，虽然NLTK提供了数千个句子，但它没有针对此特定目的的标记数据。我想知道是否有一种合理的方法可以用来手动对某些数据进行分类，这样我以后就可以将其用作分类器的训练/测试数据。理想情况下，它是图形化的，允许点击相关条款，但我希望这是一个荒谬的请求。或者，有没有更好的方法我可以使用，考虑到我可能不想手动分类成千上万的句子？我在这里是在正确的路线上，还是没有标签数据的分类器系统根本不可行？

谢谢，卡勒姆

Python NLTK：用于对未标记数据进行分类的监督学习，没有可用的标记数据

0 个答案: