我需要下载一个已存档的Google网上论坛。 例如,跟随链接是该组的消息之一。 https://groups.google.com/forum/#!topic/sci.aeronautics/ViFtpXfVm7M
问题是,我在浏览器中看到的内容没有出现在下载的网页中。
以我的有限知识,在我看来,其背后的原因是该内容是由Java脚本动态创建的。否则,这些下载的文件带有所谓的“ mbox”扩展名,该扩展名是否已加密?
到目前为止我已经尝试过的
简单下载 wget https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
带镜子 wget --mirror https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
带有cookie。 wget --load-cookies = cookies.txt https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M
得到了雷鸟来设置我的Gmail并打开。不能正确打开
使用phantomJS下载 https://askubuntu.com/questions/411540/how-to-get-wget-to-download-exact-same-web-page-html-as-browser
使用phantomJS和其他脚本下载 https://gist.github.com/giocomai/247d54e097b5083e2451
但到目前为止,没有一个没有效果。
任何人都可以通过此页面以可读的html或txt文件的形式下载此页面的信息吗?
欢呼 AyyoSalli
答案 0 :(得分:0)
您可以使用https://groups.google.com/forum/feed/sci.aeronautics/msgs/atom.xml?num=100来获取一些帖子-但在这种情况下,它只能获得大约一半的帖子。 它具有所有主题的所有消息。 在Firefox或Classic Opera中查看它,以更易读的形式直接查看。
但是,既然您说您已经拥有标准mbox格式的文件,那么它到底有什么问题-您是否试图将其导入本地安装的电子邮件或newsclient中? (如雷鸟)