标签: wget web-crawler
我发现URL中的#字符使得wget的行为与我的期望不同。基本上保持#lir的字符串将被保留,#的子字符串将被丢弃。我猜那是因为#是页内导航链接?但显然某些网站似乎将其用作“?” (url参数的开头)。用wget解决这个问题的任何解决方案?我试过卷曲但没有运气。
答案 0 :(得分:2)
不确定这是否会对您有所帮助,但我假设您正在使用#jax标签(#)。如果是这种情况,使用wget是没有意义的,因为它无法执行JavaScript。因此,如果通常使用JavaScript生成的任何内容都将丢失。
如果要下载网页内容,并执行JavaScript,那么您需要所谓的“无头浏览器”。看看这些:
htmlunit
phantomjs
zombiejs