如何标记没有空白分隔符的连续单词?

时间:2013-07-14 06:42:30

标签: python nltk tokenize

我正在使用Python和nltk。我需要用英语处理一些没有任何空格的文本,但nltk中的word_tokenize函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。 Python中有没有工具?

2 个答案:

答案 0 :(得分:2)

也许Viterbi algorithm会有所帮助?没有确定性......但可能比手动操作更好。

对另一个SO问题(以及另一个高投票答案)的回答可能会有所帮助:https://stackoverflow.com/a/481773/583834

答案 1 :(得分:1)

我不知道这些工具,但问题的解决方案取决于语言。

对于土耳其语,您可以逐字扫描输入文本并将字母累积为单词。当您确定累积的单词从字典中形成有效单词时,将其另存为单独的标记,擦除缓冲区以累积新单词并继续该过程。

你可以试试这个英语,但我认为你可能会发现一个单词的结尾可能是一些词典单词的开头,这可能会给你带来一些问题。