应用错误收集

迭代Java中网页中的所有文件名/网址

时间：2012-07-04 19:54:55

标签： java regex parsing web-crawler

我正在尝试使用Java抓取网页，我需要在页面中搜索URL和文件路径，这些路径可能是相对的，也可能是绝对路径。（例如../../file.gif或http://hostname.com/file.gif）。并非所有这些都会像<a href>一样拥有html标签，因为某些文件路径可能嵌入在某些javascript中。

如果有人能指出我正确的方向，那就太棒了。

0 个答案:

没有答案

迭代asp.net网页中的所有tetxbox控件
迭代Java中网页中的所有文件名/网址
遍历所有SimpleTextBox
遍历ListView中的所有TextView
遍历所有分支
JS Console迭代URL
通过URL迭代
迭代Swing中的所有复选框
遍历文件名并删除Erlang中的扩展名
遍历元素，获取网址，并将网址放入列表中。硒java

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？