java知道url的所有subUrls

时间:2010-08-30 14:12:56

标签: java url web-crawler

我有一个网址。 如何知道此页面的所有已存在的子类。 例如,

  1. http://tut.by/car/12324 - 存在
  2. ................ / car / 66666 - 不存在
  3. 理想地,在java中。 我已经尝试过几乎所有来自java-source.net/open-source/crawlers - 没有人可以做到这一点,他们只能通过hrefs。 Thx提前!

3 个答案:

答案 0 :(得分:2)

你寻求的是不可能的。服务器定义了URL中路径的实际含义,除非您对服务器及其处理URL的方式有很多了解,否则无法“猜测”。

答案 1 :(得分:2)

如果没有索引页面,这几乎是不可能的。虽然许多Web服务器将为您创建一个HTML索引页面(如果网站创建者没有提供),出于安全原因,禁用目录列表是一种非常常见的做法。

答案 2 :(得分:0)

我同意,您所寻求的信息将在索引页面中。即有时你去网站并删除“page.html”部分。你可以看到该目录中的所有页面和文件夹。

但如上所述,出于安全原因,这通常会被禁用,因此用户无法四处闲逛。

因此,您的其他选择是

A)猜猜,继续尝试不同的组合来强制页面网址,00001,00002,00003等

B)从网站开始抓取网站,查找网页中链接到网站上的其他网页,直到所有链接都已用完为止。显然,网站上的页面将永远不会找到它的链接。

C)作为您所需信息的网站所有者。