我正在寻找一种能够自动识别英文文本的自然语言工具。例如,每个电子邮件地址都应重命名或隐藏。但是应该去除正确的名称,应该解决这些问题,不应该解决。
有一个MITRE Identification Scrubber Toolkit。我不知道它的效果如何。
我的问题:
感谢。
答案 0 :(得分:2)
去识别(可能更常被称为匿名化)是一个非常活跃的研究领域,因为它的成功显然是在诸如医疗保健的NLP等领域中使用真实文本语料库的要求,医药等。我建议您查看CrossValidated上this question答案中列出的工具。如果您进一步遵循这些链接,您将找到描述这些工具如何与进一步参考和结果评估一起工作的研究论文。