使用Python和NLTK确定字幕换行符

时间:2015-05-20 18:23:14

标签: python text nltk

我有一些文字,我想用Python分解成字幕。我的代码使用NLTK将文本分成句子,然后分成最多36个字符的行。我无法弄清楚如何根据词性选择字幕中的换行符。因此,例如,这是一个使用我当前代码分成字幕的句子:

  

孩子们并没有多少人   占据他们所以他们进入了   
  经常麻烦。

在实践中,这不适合作为副标题。如果换行符就像

那样会更好
  

孩子们并没有多少人   占据他们   
  所以他们经常陷入麻烦。

NLTK中有什么东西会这样做吗?

1 个答案:

答案 0 :(得分:1)

恕我直言,你能做的最好的就是分块,即把句子分成名词&动词词组。然后,您可以对脚本进行编程,使其仅在块边界处插入换行符(也称为#34; chinks")。

NLTK在http://www.nltk.org/api/nltk.chunk.html

下有内置的分块(和chinking)功能

使用NLTK进行分块的好的简介教程是http://nbviewer.ipython.org/github/lukewrites/NP_chunking_with_nltk/blob/master/NP_chunking_with_the_NLTK.ipynb