维基百科文章名称(无内容)

时间:2010-04-16 20:40:13

标签: web-scraping wikipedia

我正在做一个项目,我需要知道所有维基百科的文章名称(我不需要内容)。有没有我可以下载这些数据的地方。

2 个答案:

答案 0 :(得分:14)

查看this page here on Wikipedia - 可以选择下载包含文章名称的档案。这是actual path to the download page

修改

您可能会注意到enwiki-latest-all-titles-in-ns0.gz中包含的非英文标题出现在列表中(有些亵渎 - 建议)。这是因为默认情况下,大多数人在主要英语维基上创建内容(语言代码en)。如果您要调查其他语言转储,您会发现有不同的文章集。

阅读the main download page,有人提到能够使用维基百科API在维基百科上执行某些类型的查询,但我不确定这会解决您的问题(页面的分类不会似乎提供了一种简单的方法来区分“英语”内容与“英语维基上的内容”。)

答案 1 :(得分:0)

我不知道任何文章的中心列表,但是如果你只需要大量的文章而不是一个完整的列表(记住任何完整的列表总是会过时),那么你可能与wget放在一起,从主页面递归地跟踪维基百科内的链接,并存储你得到的URL。