我们正在构建一个垂直搜索引擎,它将在计算机领域进行搜索。因此,我们希望维基百科的所有URL都属于计算机类别。有没有这样的数据库?如果不是,我们如何从属于计算机类别的维基百科中获取所有URL?我们只需要网址不完整的网页。
答案 0 :(得分:2)
有没有这样的数据库?
您可以尝试http://dbpedia.org。
我们如何从属于计算机类别的维基百科中获取所有网址?
检查Categorymembers API。但是,您需要以递归方式遍历subcategories,并手动过滤掉很多页面。