Python NLTK莎士比亚语料库

时间:2017-05-01 14:55:35

标签: python nlp nltk

我正在尝试从莎士比亚的NLTK语料库中导入句子 - 在this帮助网站之后 - 但我无法访问句子(为了训练word2vec模型):

TITLE: A Midsummer Night's Dream
PERSONAE: 

SCNDESCR: SCENE  Athens, and a wood near it.
PLAYSUBT: A MIDSUMMER NIGHT'S DREAM
ACT: None
ACT: None
ACT: None
ACT: None
ACT: None

返回以下内容:

@Temporal(TemporalType.TIMESTAMP)
@Column(name = "end_time")
private Date endTime;

public Date getEndTime() {
    return endTime;
}

为什么所有的行为都没有?

这里定义的方法(http://www.nltk.org/howto/corpus.html#data-access-methods)(.sents(),tagged_sents(),chunked_sents(),parsed_sents())在应用于莎士比亚XMLCorpusReader时似乎都不起作用

我想了解:
1 /如何获得句子

2 /如何知道如何在ElementTree对象中查找它们

1 个答案:

答案 0 :(得分:3)

问题归结为如何从元素树的所有子元素中提取文本。 这与Python element tree - extract text from element, stripping tags

完全相同

试试这个:

for p in play:
    print('%s: %s' % (p.tag, list(p.itertext())))

在此处插入您想要做的事情