我现在正在使用java中的网页提取器,我很好奇Java中最好的方法是什么。
我有一个链接:例如:http://www.nytimes.com/2010/07/08/technology/personaltech/08pogue.html?ref=technology
当我抓取该页面时,我可能会找到像
这样的img src路径"../public/images/header.jpg"
"../../test/logo.gif"
它可能相对于文件所在的其中一个子目录
问题是..在Java中是否有一个可以将这些转换为绝对路径的库,如
http://www.nytimes.com/2010/07/08/technology/public/images/header.jpg
感谢
答案 0 :(得分:3)
网址类应该可以执行此操作,请参阅:http://download.oracle.com/docs/cd/E17409_01/javase/6/docs/api/java/net/URL.html#URL%28java.net.URL,%20java.lang.String%29
例如:
URL pageURL = new URL("http://www.nytimes.com/2010/07/08/technology/personaltech/08pogue.html?ref=technology");
URL imageURL = new URL(pageURL, "../public/images/header.jpg");
警告:未经过测试