我有一些由另一个系统生成的文本。它将一些单词组合在一起,我认为是某种文字包装副产品。所以像“狗”这样简单的东西就会组合成“狗”。
我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有。一个令人困惑的问题是,这是医学文本,要检查的语料库不是可用的。所以,真正的例子是'...排除SARS与肺炎的试验'最终成为'......肺炎。'
有人建议找到并分离这些吗?
答案 0 :(得分:2)
您可能会感兴趣http://www.perlmonks.org/?node_id=336331
您可以使用两个词典,一个只包含医学术语和一个通用英语,可以使用文本的医学性质。
如果你可以找出医学单词,那么在一般字典中运行其余的字符串你应该得到一些不错的结果。
答案 1 :(得分:1)
这是一个相当棘手的问题。
我可能会说组合方法是你最好的选择。
它几乎是一种高级形式的拼写检查。你可以更多地自动化它,但我不会冒重要的事情。
或者,您可以在发生休息时查找模式。因此,例如,如果每个应该是空格的第n个字符不是,则可以解决该问题。
答案 2 :(得分:0)
这就是我所做的。我结合了一些想法并使用一般的自举方法提出了一个非常好的解决方案。我使用Python来完成所有这些。