应用错误收集

NLP中语料库的人工注释工具

时间：2014-08-25 18:09:21

标签： machine-learning nlp

我正在尝试为命名实体识别构建我自己的培训语料库，但我不知道是否已经存在这样的工具或者我是否必须自己实施。

基本上，我需要做的是采用语料库并逐字手动标记，这非常繁琐，但必须这样做。

任何人都可以告诉我，如果已经有现有的，可以从哪里获得它？

7 个答案:

答案 0 :(得分：2)

我在使用BRAT时有很好的经验。 GATE也是一个非常复杂的工具，用于注释，更陡峭的学习曲线。

答案 1 :(得分：1)

对于相对较短文档的文本或HTML语料库的在线注释，我还建议BRAT。如果你想做任何自定义的事情，你将不得不深入了解python web应用程序。它也无法在大型HTML文档（100页左右）上为我工作。

我还使用了独立的应用程序：

Protege + Knowtator：设置/使用有点麻烦，但它作品;
Gate：也很麻烦，而且有点奏效。备用您可能会定期获得注释对堆栈跟踪感到惊讶，也删除或损坏了您的注释语料库（它只是序列化的Java对象）。

如果您正在处理PDF文档，我们构建了一个基于Web的PDF注释工具：NOTA。它接受打印为PDF的任何内容，包括扫描。我们在最后进行商业OCR以从图像中恢复文本。有一个REST API用于创建颜色编码的注释模式，并使用注释预填充文档，以及用于导出格式化文本和注释偏移的REST API。您还可以使用JS API来自定义任何注释工作流，向注释添加元数据等。不支持开箱即用的关系。大型文档，支持200多页。 Email us我们可以为您提供API密钥以进行试用。可以找到详细信息和文档链接here。它对于小型研究项目是免费的。

以下是注释的截图：