我正在尝试从莎士比亚的NLTK语料库中导入句子 - 在this帮助网站之后 - 但我无法访问句子(为了训练word2vec模型):
TITLE: A Midsummer Night's Dream
PERSONAE:
SCNDESCR: SCENE Athens, and a wood near it.
PLAYSUBT: A MIDSUMMER NIGHT'S DREAM
ACT: None
ACT: None
ACT: None
ACT: None
ACT: None
返回以下内容:
@Temporal(TemporalType.TIMESTAMP)
@Column(name = "end_time")
private Date endTime;
public Date getEndTime() {
return endTime;
}
为什么所有的行为都没有?
这里定义的方法(http://www.nltk.org/howto/corpus.html#data-access-methods)(.sents(),tagged_sents(),chunked_sents(),parsed_sents())在应用于莎士比亚XMLCorpusReader时似乎都不起作用
我想了解:
1 /如何获得句子
2 /如何知道如何在ElementTree对象中查找它们
答案 0 :(得分:3)
问题归结为如何从元素树的所有子元素中提取文本。 这与Python element tree - extract text from element, stripping tags
完全相同试试这个:
for p in play:
print('%s: %s' % (p.tag, list(p.itertext())))
在此处插入您想要做的事情