我正在编写一些代码,用于计算有关单词用法的某些统计信息。
有谁知道在去年(比如说)的一段时间内我可以在哪里找到各种主题的原始新闻文章数据库?优选地,它们可以是纯文本格式或XML。试图从随机网站上抓取内容不是一个好选择。
我知道我可以将自己归档。但是,我需要用一堆现有文章来启动这个过程......越多越好。
对于易于以简单解析形式提供的语料库数据集的任何其他想法也将受到赞赏。
答案 0 :(得分:0)
您可以尝试Internet Archive。他们有一个文本部分,但我不知道它是否有新闻。您也可以使用他们的Wayback机器使用他们的RSS源从主要站点提取新闻文章。