撇号转换为正确的文字?

时间:2011-01-12 20:41:12

标签: algorithm text nlp text-parsing

目标:我需要能够将撇号转换为正确形成的单词。 - 至少对于带有撇号的最常见的单词。理想情况下,我想要一个单词列表及其隐含的对应部分(即“不要”和“不要”)。

问题:我正在创建一个基于自然语言处理的搜索算法,但是当用户使用撇号创建内容(或搜索)时,它会给我们带来问题。主要是因为如果我们只是删除撇号,我们就会(不要 - >不)(不是 - >不),这正式不是英语单词,并且不能被NLP系统翻译

理想的解决方案只是对这些项目应该转换为的一对一映射,但我不知道这样的列表。

如果你知道一个,我可以找到它,请告诉我。

THX

2 个答案:

答案 0 :(得分:3)

这看起来很不错: http://www.textfixer.com/resources/english-contractions-list.php

取决于您想要制作系统的好处。会不会理解“会”会“走向”而“必须”是......好吧,这是一个艰难的问题。它可能意味着“得到”(“必须”,“必须”),或“得到”(“有一个”)。

哦,当我们试图教我们的计算机进行交流时,我们学到的东西。

答案 1 :(得分:0)

这些词被称为“收缩”,你可以在网上找到一个列表,例如http://en.wikipedia.org/wiki/Contraction_(grammar)