应用错误收集

时间：2013-07-14 06:42:30

标签： python nltk tokenize

我正在使用Python和nltk。我需要用英语处理一些没有任何空格的文本，但nltk中的word_tokenize函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。 Python中有没有工具？

答案 0 :(得分：2)

也许Viterbi algorithm会有所帮助？没有确定性......但可能比手动操作更好。

对另一个SO问题（以及另一个高投票答案）的回答可能会有所帮助：https://stackoverflow.com/a/481773/583834

答案 1 :(得分：1)

我不知道这些工具，但问题的解决方案取决于语言。

对于土耳其语，您可以逐字扫描输入文本并将字母累积为单词。当您确定累积的单词从字典中形成有效单词时，将其另存为单独的标记，擦除缓冲区以累积新单词并继续该过程。

你可以试试这个英语，但我认为你可能会发现一个单词的结尾可能是一些词典单词的开头，这可能会给你带来一些问题。