Question

我正在研究将文档拆分成段落的方法，并且我遇到了texttiling作为一种可能的方法。

这是我尝试使用它。但是，我不了解如何使用输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

输出：

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

Answer 1

我现在正在弄乱这个问题，原因与你一样，并且你做了同样的问题，所以如果这是错误的话，不要太烦恼。我认为最好传递我所知道的一点...... :)

我还不确定，但我在this错误报告中找到了使用TextTilingTokenizer的示例：

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])

您希望将文本提供给TextTilingTokenizer上的tokenize方法。