在从html文件中提取链接时,将相对URL转换为绝对URL

时间:2014-04-07 14:40:05

标签: java url apache-tika

在获取网页后,我想以绝对形式提取该html页面的所有外链接。 Html页面通常有以下形式的相对URL(我用Apache Tika提取这些URL):

    link.html
    ./link.html
    somehost/link.html
    /path/link.html
    ./path/link.html

我想将所有这些转换为绝对网址。 是否有任何一致的Java库来执行此操作,以便我不必为这些使用if else?因为可能有许多其他形式我不知道,我需要有一些适用于任何类型的外链,特别是这里提到的。

0 个答案:

没有答案