我正在尝试为命名实体识别构建我自己的培训语料库,但我不知道是否已经存在这样的工具或者我是否必须自己实施。
基本上,我需要做的是采用语料库并逐字手动标记,这非常繁琐,但必须这样做。
任何人都可以告诉我,如果已经有现有的,可以从哪里获得它?
答案 0 :(得分:2)
我在使用BRAT时有很好的经验。 GATE也是一个非常复杂的工具,用于注释,更陡峭的学习曲线。
答案 1 :(得分:1)
对于相对较短文档的文本或HTML语料库的在线注释,我还建议BRAT。如果你想做任何自定义的事情,你将不得不深入了解python web应用程序。它也无法在大型HTML文档(100页左右)上为我工作。
我还使用了独立的应用程序:
如果您正在处理PDF文档,我们构建了一个基于Web的PDF注释工具:NOTA。它接受打印为PDF的任何内容,包括扫描。我们在最后进行商业OCR以从图像中恢复文本。有一个REST API用于创建颜色编码的注释模式,并使用注释预填充文档,以及用于导出格式化文本和注释偏移的REST API。您还可以使用JS API来自定义任何注释工作流,向注释添加元数据等。不支持开箱即用的关系。大型文档,支持200多页。 Email us我们可以为您提供API密钥以进行试用。可以找到详细信息和文档链接here。它对于小型研究项目是免费的。
以下是注释的截图:
答案 2 :(得分:1)
我们使用DataTurks获得了很好的体验。它们提供了非常直观的UI,允许添加协作者,数据洞察,注释器排行榜和其他一些时髦的功能。
答案 3 :(得分:1)
我自己共同开发了基于网络的文字注释工具:tagtog.net
无需安装,您可以定义要注释的实体的类型。此外,您可以注释关系,文档标签等等。您可以上传多种不同格式的文档,包括 PDF或降价。您可以与团队协作一起注释。我们非常注重使界面简单美观。它看起来像这样:
您可以立即使用free account开始。我也很乐意帮助您解决任何疑问或问题;只是ping我或给我们发电子邮件到网站tagtog.net上显示的地址。
答案 4 :(得分:1)
我们的注释工具Prodigy非常易于编写脚本,旨在用于主动学习。它与我们的NLP库spaCy集成得特别好。
我们特别关注命名实体识别(NER)注释工作流,因为否则实体识别可能会非常缓慢。我有一个关于这个的教学视频:
答案 5 :(得分:0)
有一个名为Dataturks的工具非常简单易用,完全在线NLP annotation tool,因此我甚至可以轻松地让我的队友为我们的项目完成数据集。
答案 6 :(得分:0)