我想要一个文字
运行标记化,停用词,移除,词条和其他分析
然后打印满足特定条件/分数的段落
然而,上述步骤会丢弃信息/令牌。如何保留对原始文本的引用,以便我知道这些元素最初出现的位置,以便引用正确的段落?
答案 0 :(得分:1)
您可以在语料库中阅读,将其拆分为段落,并一次对一个段落应用进一步处理。使用nltk的List<String> list = new ArrayList<String>(Arrays.asList("aaa", "bbb", "ccc"));
来阅读您的文字,只需调用PlaintextCorpusReader
方法,您就可以将段落标记为句子和单词。以下是使用paras()
语料库(gutenberg
的实例)的示例。
PlaintextCorpusReader