如何检查URL是否在botw.org上有链接?

时间:2011-03-02 05:10:25

标签: java api hyperlink web-scraping web-crawler

我正在开发一个应用程序,我必须检查botw.org上是否存在给定URL的链接。是否有任何免费API可用于检查botw.org或任何其他来源以检查此内容?

谢谢!

3 个答案:

答案 0 :(得分:1)

您需要一个抓取工具。自己构建一个(对于小爬行来说是非常简单的!)

  • 点击首页(见下文**)
  • 解析页面,解压缩链接。为此,您需要一个可以处理格式错误的HTML的HTML解析器。试试JerichoTagSoupCyberNeckoHtmlTidy。普通的XML解析器可能不会成为大多数HTML页面的芥末,因为它们通常不是格式良好的XML。
  • 检查您要查找的链接。如果您找不到它,请添加您之前未见过的站点本地链接,然后返回步骤1,重复。

对于一个小网站(几千页),您可以在内存中完成所有这些操作。

**使用通常的java URLConnection或commons HTTPClient(v4)来发出请求。

注意:找到您的链接 - 链接可以在网站上以绝对,本地或解析为某些基本href存在。在寻找你​​的时候,你需要考虑到这一点。最简单的方法是将所有链接转换为绝对形式,注意解析当前页面基础href(如果有)。

Simples。

答案 1 :(得分:0)

您必须抓取网站,解析每个网页的锚点,并测试它们是否与您要查找的内容相符...假设他们没有使用javascript创建链接,很少有人这样做。

标准的XML解析器可以工作,SAX可能是最容易学习的。

答案 2 :(得分:0)

您可以使用搜索页面:

实施例: http://search.botw.org/search?q=stackoverflow.com

您可以验证是否在那里获得了良好的结果,而不是抓取整个网站。