我正在做一个项目,我需要知道所有维基百科的文章名称(我不需要内容)。有没有我可以下载这些数据的地方。
答案 0 :(得分:14)
查看this page here on Wikipedia - 可以选择下载包含文章名称的档案。这是actual path to the download page:
修改强>
您可能会注意到enwiki-latest-all-titles-in-ns0.gz
中包含的非英文标题出现在列表中(有些亵渎 - 建议)。这是因为默认情况下,大多数人在主要英语维基上创建内容(语言代码en
)。如果您要调查其他语言转储,您会发现有不同的文章集。
阅读the main download page,有人提到能够使用维基百科API在维基百科上执行某些类型的查询,但我不确定这会解决您的问题(页面的分类不会似乎提供了一种简单的方法来区分“英语”内容与“英语维基上的内容”。)
答案 1 :(得分:0)
我不知道任何文章的中心列表,但是如果你只需要大量的文章而不是一个完整的列表(记住任何完整的列表总是会过时),那么你可能与wget放在一起,从主页面递归地跟踪维基百科内的链接,并存储你得到的URL。