标签: java regex parsing web-crawler
我正在尝试使用Java抓取网页,我需要在页面中搜索URL和文件路径,这些路径可能是相对的,也可能是绝对路径。 (例如../../file.gif或http://hostname.com/file.gif)。并非所有这些都会像<a href>一样拥有html标签,因为某些文件路径可能嵌入在某些javascript中。
<a href>
如果有人能指出我正确的方向,那就太棒了。