我刚开始从事内容提取项目。首先,我正在尝试网页中的图片网址。在某些情况下,“img”的“src”属性具有相对URL。但我需要获得完整的URL。
我正在寻找一些Java库来实现这一点,并认为 Jsoup 会很有用。有没有其他库可以轻松实现这一目标?
答案 0 :(得分:1)
如果您只需要从相对URL获取完整的URL,那么解决方案在Java中很简单:
URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);
HTML页面的基本URL通常只是您从中获取HTML代码的URL。然而,< base>文档标题中使用的标记可用于指定不同的基本URL(但不经常使用)。
您可以使用Jsoup或仅使用DOM解析器来获取src属性值以及查找最终的基本标记。