将文本拆分为段落NLTK - 使用nltk.tokenize.texttiling?

时间:2014-08-01 02:54:15

标签: python nltk

我正在研究将文档拆分成段落的方法,并且我遇到了texttiling作为一种可能的方法。

这是我尝试使用它。但是,我不了解如何使用输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

输出:

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

1 个答案:

答案 0 :(得分:2)

我现在正在弄乱这个问题,原因与你一样,并且你做了同样的问题,所以如果这是错误的话,不要太烦恼。我认为最好传递我所知道的一点...... :)

我还不确定,但我在this错误报告中找到了使用TextTilingTokenizer的示例:

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])

您希望将文本提供给TextTilingTokenizer上的tokenize方法。