迭代Java中网页中的所有文件名/网址

时间:2012-07-04 19:54:55

标签: java regex parsing web-crawler

我正在尝试使用Java抓取网页,我需要在页面中搜索URL和文件路径,这些路径可能是相对的,也可能是绝对路径。 (例如../../file.gif或http://hostname.com/file.gif)。并非所有这些都会像<a href>一样拥有html标签,因为某些文件路径可能嵌入在某些javascript中。

如果有人能指出我正确的方向,那就太棒了。

0 个答案:

没有答案