应用错误收集

用于自然语言处理的转录数据集

时间：2013-08-27 16:07:10

标签： machine-learning nlp speech-recognition

我一直在网上搜索，发现CNN和NPR等媒体提供了访问其成绩单的链接。要获得它们，需要写一些不太方便的爬虫。原因是我试图在我的自然语言处理项目中使用电视节目，采访，广播，电影的一些成绩单作为训练数据。所以我想知道网上是否有免费的集合或数据库，以便我可以一次下载所有这些集合或数据库而无需自己编写爬虫？

1 个答案:

答案 0 :(得分：2)

我会推荐British National Corpus。我还会提到美国国家语料库，但那里的成绩单只有电话或面对面的对话 - 没有新闻，电视节目等。

您还提到了CNN和NPR。 1996年的成绩单为LDC corpus here。