用于自然语言处理的转录数据集

时间:2013-08-27 16:07:10

标签: machine-learning nlp speech-recognition

我一直在网上搜索,发现CNN和NPR等媒体提供了访问其成绩单的链接。要获得它们,需要写一些不太方便的爬虫。原因是我试图在我的自然语言处理项目中使用电视节目,采访,广播,电影的一些成绩单作为训练数据。所以我想知道网上是否有免费的集合或数据库,以便我可以一次下载所有这些集合或数据库而无需自己编写爬虫?

1 个答案:

答案 0 :(得分:2)

我会推荐British National Corpus。我还会提到美国国家语料库,但那里的成绩单只有电话或面对面的对话 - 没有新闻,电视节目等。

您还提到了CNN和NPR。 1996年的成绩单为LDC corpus here