在可能的英语单词边界上分裂字符串

时间:2010-02-13 18:26:52

标签: text-analysis

我最近使用Adobe Acrobat Pro的OCR功能处理日语汉字词典。输出的整体质量通常比我希望的要好一些,但是文本英文部分的单词边界经常丢失。例如,这是我文件中的一行:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

我可以绕过并在任何地方插入缺失的单词边界,但这将增加已经是一项重要任务。我希望可能存在可以分析这样的文本的软件,其中一些单词一起运行,并将文本分成可能的单词边界。有这样的套餐吗?

我正在使用Emacs,所以如果有问题的软件包已经是Emacs软件包或者可以很容易地集成到Emacs中,它会非常甜蜜,所以我可以简单地将光标放在如上所述的行上重复调用一些命令,按照可能的正确性降序排列单词边界上的一行。

2 个答案:

答案 0 :(得分:1)

我不知道已经存在的任何事情。

最简单的方法是简单地将字符串中包含的最长单词集与字典进行匹配。当然可能有很多单词,所以你必须计划所有的组合和排列。这样做计算成本很高,但编写速度相当快。

答案 1 :(得分:0)

我也找不到任何东西,结果又增加了interactive approach