我正在研究将文档拆分成段落的方法,并且我遇到了texttiling作为一种可能的方法。
这是我尝试使用它。但是,我不了解如何使用输出。我很感激你的帮助。
t = unidecode(doclist[0].decode('utf-8','ignore'))
nltk.tokenize.texttiling.TextTilingTokenizer(t)
输出:
<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>
答案 0 :(得分:2)
我现在正在弄乱这个问题,原因与你一样,并且你做了同样的问题,所以如果这是错误的话,不要太烦恼。我认为最好传递我所知道的一点...... :)
我还不确定,但我在this错误报告中找到了使用TextTilingTokenizer的示例:
alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])
您希望将文本提供给TextTilingTokenizer上的tokenize方法。