应用错误收集

时间：2010-08-30 14:12:56

标签： java url web-crawler

我有一个网址。如何知道此页面的所有已存在的子类。例如，

理想地，在java中。我已经尝试过几乎所有来自java-source.net/open-source/crawlers - 没有人可以做到这一点，他们只能通过hrefs。 Thx提前！

答案 0 :(得分：2)

你寻求的是不可能的。服务器定义了URL中路径的实际含义，除非您对服务器及其处理URL的方式有很多了解，否则无法“猜测”。

答案 1 :(得分：2)

如果没有索引页面，这几乎是不可能的。虽然许多Web服务器将为您创建一个HTML索引页面（如果网站创建者没有提供），出于安全原因，禁用目录列表是一种非常常见的做法。

答案 2 :(得分：0)

我同意，您所寻求的信息将在索引页面中。即有时你去网站并删除“page.html”部分。你可以看到该目录中的所有页面和文件夹。

但如上所述，出于安全原因，这通常会被禁用，因此用户无法四处闲逛。

因此，您的其他选择是

A）猜猜，继续尝试不同的组合来强制页面网址，00001,00002,00003等

B）从网站开始抓取网站，查找网页中链接到网站上的其他网页，直到所有链接都已用完为止。显然，网站上的页面将永远不会找到它的链接。

C）作为您所需信息的网站所有者。