将字符串拆分为相关的单词

时间:2019-01-24 17:09:34

标签: python-3.x pdf nltk tokenize

使用PDF解析器(pdfminer)和标记化(nltk软件包)后,我有一些字符串〜单词实际上是其他单词的组合,但没有标点符号或空格以方便拆分。

我的输出中有许多正确的单词拆分,但偶尔也有一些项目,例如:'simpleexamplelabeleddatalikelihood'-理想情况下,我希望将其拆分为'simple','example','labeled','data','likelihood'。我将处理大量文档,因此很可能会得到一些非常奇怪的单词/句子字符串组合,并且如果不实际查看输出并手动操作,就无法预测要组合的单词。是否有任何软件包会说“哦,这个字符串是X,Y和Z单词的组合,所以让我们将其拆分为X,Y和Z?”如果确实存在,那么实际上是否准确? 我个人的想法是,由于名称“ Thea”被分成“ the”和“ a”之类的问题,这似乎是一个没有希望的问题,但也许这些情况很少见,因此那里有一个准确的包装。 ?

1 个答案:

答案 0 :(得分:0)

不确定该问题在多大程度上与复合词拆分有关(即在某种程度上是肯定的,但是听起来您的输入将大部分不是实际的复合词)。但是您可能会在这个方向上寻找答案,或者查看https://pypi.org/project/compound-word-splitter/