我想将字符串拆分成可能的单词字符串。我应该采用什么方法。
给定字符串:thisisapineapple
解决方案1:这是一个菠萝 解决方案2:这是一个松树苹果
请建议并解释可能的alogrith以获得上述解决方案。
谢谢:)
答案 0 :(得分:2)
要回答您的问题,Knuth-Morris-Pratt算法非常强大,并且实施起来并不十分困难。
使用/usr/share/dict/words
或/usr/dict/words
中的字符串作为模式。
答案 1 :(得分:1)
您需要无扫描仪GLR parser。他们可以像这样处理一起运行的单词,并且可以返回模糊的结果。我自己的NLP库(AboditNLP)就是这样做的。 Wordnet是一个很好的词源。