使用wget抓住整个tumblr?

时间:2012-06-26 18:31:05

标签: css http recursion wget tumblr

如果违反任何规则,我会提前道歉等。 我正在尝试使用wget在本地克隆我的tumblr博客,这样可以解决一个问题。它完全克隆了页面,但我使用的主题中有一个无限的滚动脚本,因此在用户向下滚动到最后一个帖子之前,没有其他帖子被加载。这是一个问题,因为wget只捕获第一页,没有进一步。

目前,我正在使用: wget --random-wait -r -p -e robots = off -U mozilla http://.tumblr.com

有没有办法可以单独使用wget来完成这项任务? 感谢您的时间和帮助。

2 个答案:

答案 0 :(得分:1)

wget不会这样做,因为它不会处理页面中的javascript。你最好的选择是使用tumblr API。它提供了一种抓取和发布博客数据的机制。

答案 1 :(得分:1)

您是否尝试过使用/archive

无论如何,我发现以下内容对于获取没有无限滚动主题的博客的完整副本非常有用:

wget --user-agent="Mozilla/5.0 XXX" \
--recursive --level=0 --convert-links --backup-converted --page-requisites \
--domains="xkcd.tumblr.com,media.tumblr.com" --exclude-domains="." --span-hosts \
http://xkcd.tumblr.com/