应用错误收集

wget：如何使用shop（＃）字符抓取网址

时间：2011-10-26 22:27:35

标签： wget web-crawler

我发现URL中的＃字符使得wget的行为与我的期望不同。基本上保持#lir的字符串将被保留，＃的子字符串将被丢弃。我猜那是因为＃是页内导航链接？但显然某些网站似乎将其用作“？” （url参数的开头）。用wget解决这个问题的任何解决方案？我试过卷曲但没有运气。

1 个答案:

答案 0 :(得分：2)

不确定这是否会对您有所帮助，但我假设您正在使用#jax标签（＃）。如果是这种情况，使用wget是没有意义的，因为它无法执行JavaScript。因此，如果通常使用JavaScript生成的任何内容都将丢失。

如果要下载网页内容，并执行JavaScript，那么您需要所谓的“无头浏览器”。看看这些：