NLTK:如何保持对原始文本的引用

时间:2017-02-05 13:00:55

标签: nltk

我想要一个文字

  • 运行标记化,停用词,移除,词条和其他分析

  • 然后打印满足特定条件/分数的段落

然而,上述步骤会丢弃信息/令牌。如何保留对原始文本的引用,以便我知道这些元素最初出现的位置,以便引用正确的段落?

1 个答案:

答案 0 :(得分:1)

您可以在语料库中阅读,将其拆分为段落,并一次对一个段落应用进一步处理。使用nltk的List<String> list = new ArrayList<String>(Arrays.asList("aaa", "bbb", "ccc")); 来阅读您的文字,只需调用PlaintextCorpusReader方法,您就可以将段落标记为句子和单词。以下是使用paras()语料库(gutenberg的实例)的示例。

PlaintextCorpusReader