从Google网上论坛下载消息

时间:2018-11-03 00:55:38

标签: google-groups

我需要下载一个已存档的Google网上论坛。 例如,跟随链接是该组的消息之一。 https://groups.google.com/forum/#!topic/sci.aeronautics/ViFtpXfVm7M

问题是,我在浏览器中看到的内容没有出现在下载的网页中。

以我的有限知识,在我看来,其背后的原因是该内容是由Java脚本动态创建的。否则,这些下载的文件带有所谓的“ mbox”扩展名,该扩展名是否已加密?

到目前为止我已经尝试过的

第一次尝试

  1. 简单下载 wget https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M

  2. 带镜子 wget --mirror https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M

假设其已加密

  1. 带有cookie。 wget --load-cookies = cookies.txt https://groups.google.com/d/topic/sci.aeronautics/ViFtpXfVm7M

  2. 得到了雷鸟来设置我的Gmail并打开。不能正确打开

假设内容是用javascript生成的

  1. 使用phantomJS下载 https://askubuntu.com/questions/411540/how-to-get-wget-to-download-exact-same-web-page-html-as-browser

  2. 使用phantomJS和其他脚本下载 https://gist.github.com/giocomai/247d54e097b5083e2451

Github提供的二手脚本

  1. https://github.com/henryk/gggd
  2. https://github.com/icy/google-group-crawler

但到目前为止,没有一个没有效果。

任何人都可以通过此页面以可读的html或txt文件的形式下载此页面的信息吗?

欢呼 AyyoSalli

1 个答案:

答案 0 :(得分:0)

您可以使用https://groups.google.com/forum/feed/sci.aeronautics/msgs/atom.xml?num=100来获取一些帖子-但在这种情况下,它只能获得大约一半的帖子。 它具有所有主题的所有消息。 在Firefox或Classic Opera中查看它,以更易读的形式直接查看。

但是,既然您说您已经拥有标准mbox格式的文件,那么它到底有什么问题-您是否试图将其导入本地安装的电子邮件或newsclient中? (如雷鸟)