从java中的网页图像提取

时间:2013-02-19 20:43:09

标签: java html jsoup image-extraction

我刚开始从事内容提取项目。首先,我正在尝试网页中的图片网址。在某些情况下,“img”的“src”属性具有相对URL。但我需要获得完整的URL。

我正在寻找一些Java库来实现这一点,并认为 Jsoup 会很有用。有没有其他库可以轻松实现这一目标?

1 个答案:

答案 0 :(得分:1)

如果您只需要从相对URL获取完整的URL,那么解决方案在Java中很简单:

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);

HTML页面的基本URL通常只是您从中获取HTML代码的URL。然而,< base>文档标题中使用的标记可用于指定不同的基本URL(但不经常使用)。

您可以使用Jsoup或仅使用DOM解析器来获取src属性值以及查找最终的基本标记。