Question

我即将编写一个类来查看html源代码并过滤掉所有pdf链接。它背后的想法只是采取父链接+相关链接.. 基本上它适用于

<a href="blabla/123.pdf">pdf</a>

但在某些情况下它并不是例如如果相同的pdf链接写为

<a href="./blabla/123.pdf">pdf</a>

或

<a href=" blabla/123.pdf">pdf</a>

（点和空格）都是工作链接，如果在浏览器中解析它们，则转到相同目录中的相同pdf，但是对于我班级中的合成完全没用。

我解决了上述两种情况的问题。问题是在语法中是否还有其他特殊情况需要注意。

Answer 1

在下载文件之前，您不知道链接指向的内容。

我可以使用像http://www.mysite.com/pages/brochure.html这样的内部重定向到PDF文件的链接。

因此，如果您无法控制链接或在网站的某个特定部分工作，那么您将会失败。

另一方面，如果您正在处理网站的特定部分，您知道每个PDF链接都有.pdf扩展，您只需检查扩展名而不是整个路径（不要知道如何用Java编写C＃的.lastIndexOf("string")内容。