从html源代码中过滤pdf链接

时间:2011-04-20 11:42:24

标签: java html hyperlink

我即将编写一个类来查看html源代码并过滤掉所有pdf链接。它背后的想法只是采取父链接+相关链接.. 基本上它适用于

<a href="blabla/123.pdf">pdf</a>

但在某些情况下它并不是例如如果相同的pdf链接写为

<a href="./blabla/123.pdf">pdf</a> 

<a href=" blabla/123.pdf">pdf</a>

(点和空格)都是工作链接,如果在浏览器中解析它们,则转到相同目录中的相同pdf,但是对于我班级中的合成完全没用。

我解决了上述两种情况的问题。问题是在语法中是否还有其他特殊情况需要注意。

1 个答案:

答案 0 :(得分:1)

在下载文件之前,您不知道链接指向的内容。

我可以使用像http://www.mysite.com/pages/brochure.html这样的内部重定向到PDF文件的链接。

因此,如果您无法控制链接或在网站的某个特定部分工作,那么您将会失败。

另一方面,如果您正在处理网站的特定部分,您知道每个PDF链接都有.pdf扩展,您只需检查扩展名而不是整个路径(不要知道如何用Java编写C#的.lastIndexOf("string")内容。