我一直在网上搜索,发现CNN和NPR等媒体提供了访问其成绩单的链接。要获得它们,需要写一些不太方便的爬虫。原因是我试图在我的自然语言处理项目中使用电视节目,采访,广播,电影的一些成绩单作为训练数据。所以我想知道网上是否有免费的集合或数据库,以便我可以一次下载所有这些集合或数据库而无需自己编写爬虫?
答案 0 :(得分:2)
我会推荐British National Corpus。我还会提到美国国家语料库,但那里的成绩单只有电话或面对面的对话 - 没有新闻,电视节目等。
您还提到了CNN和NPR。 1996年的成绩单为LDC corpus here。