应用错误收集

使用PDF解析器（pdfminer）和标记化（nltk软件包）后，我有一些字符串〜单词实际上是其他单词的组合，但没有标点符号或空格以方便拆分。

我的输出中有许多正确的单词拆分，但偶尔也有一些项目，例如：'simpleexamplelabeleddatalikelihood'-理想情况下，我希望将其拆分为'simple'，'example'，'labeled'，'data'，'likelihood'。我将处理大量文档，因此很可能会得到一些非常奇怪的单词/句子字符串组合，并且如果不实际查看输出并手动操作，就无法预测要组合的单词。是否有任何软件包会说“哦，这个字符串是X，Y和Z单词的组合，所以让我们将其拆分为X，Y和Z？”如果确实存在，那么实际上是否准确？我个人的想法是，由于名称“ Thea”被分成“ the”和“ a”之类的问题，这似乎是一个没有希望的问题，但也许这些情况很少见，因此那里有一个准确的包装。？

将字符串拆分为相关的单词

1 个答案: