触发在Facebook时间轴上加载内容的事件

时间:2012-09-18 14:43:11

标签: facebook javascript-events htmlunit nutch facebook-timeline

我正在开发Apache Nutch修改项目。我们已经将Nutch的原始模块与我们使用HtmlUnit构建的模块进行了交换。我需要下载整个facebook用户站点(例如http://www.facebook.com/profile.php?id=100002517096832),这将使用我们自己的解析器进行解析。不幸的是,facebook正在使用名为BigPipe的机制(http://www.facebook.com/note.php?note_id=389414033919)。这就是为什么大多数当前网站隐藏在<。! - - >中的原因。标签。 通常当我们向下滚动Facebook页面时,每当我们要打到页面底部时,新内容都会被解压缩。我曾尝试使用javascript滚动我的htmlPage(来自HtmlUnit项目的HtmlPage对象),但最后我意识到滚动并没有触发在facebook用户网站上加载新内容。

如何检查页面上的哪些事件触发加载当前Facebook页面上的内容?也许我应该从不同的方面处理问题,例如尝试自己提取BigPipe“东西”?你有没有这样做过?

最好的问候,igleyy

1 个答案:

答案 0 :(得分:0)

在处理你的问题之前......你想在那里建立什么样的项目?

由于Apache Nutch是一个开源网络搜索软件,我认为你正在尝试构建某种搜索引擎,它会刮掉Facebook用户配置文件/提要以获取数据并使其可搜索到一些第三方网站?

那么,这将是Facebook Platform Policies的一个转变:

  

予。特点和功能

     

12.未经我们书面许可,您不得在任何搜索引擎或目录中包含从我们这里获得的数据。

那么,你有书面许可吗?