Question

我正在尝试从莎士比亚的NLTK语料库中导入句子 - 在this帮助网站之后 - 但我无法访问句子（为了训练word2vec模型）：

TITLE: A Midsummer Night's Dream
PERSONAE: 

SCNDESCR: SCENE  Athens, and a wood near it.
PLAYSUBT: A MIDSUMMER NIGHT'S DREAM
ACT: None
ACT: None
ACT: None
ACT: None
ACT: None

返回以下内容：

@Temporal(TemporalType.TIMESTAMP)
@Column(name = "end_time")
private Date endTime;

public Date getEndTime() {
    return endTime;
}

为什么所有的行为都没有？

这里定义的方法（http://www.nltk.org/howto/corpus.html#data-access-methods）（.sents（），tagged_sents（），chunked_sents（），parsed_sents（））在应用于莎士比亚XMLCorpusReader时似乎都不起作用

我想了解：
1 /如何获得句子

2 /如何知道如何在ElementTree对象中查找它们

Answer 1

问题归结为如何从元素树的所有子元素中提取文本。这与Python element tree - extract text from element, stripping tags

完全相同

试试这个：

for p in play:
    print('%s: %s' % (p.tag, list(p.itertext())))

在此处插入您想要做的事情

Python NLTK莎士比亚语料库

1 个答案: