在Google应用引擎上为选定的网站运行网络抓取工具?

时间:2010-12-06 09:34:30

标签: google-app-engine web-crawler nutch

我需要编写一个抓取工具,仅从少数预选网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

可能我可以尝试Nutch为我做这件事。

这种完成方式有多可行?

1)在Google基础架构上托管抓取工具 2)Nutch + app引擎 - 可以吗?

1 个答案:

答案 0 :(得分:4)

只是浏览nutch docs,我看到的评论就像“[t]他是Nutch的第二个版本完全基于底层的Hadoop平台” 这让我怀疑这不会在App Engine上运行。 App Engine应用程序在PythonJava沙箱中运行。

那就是说,你应该能够在App Egnine上放置一个基本的爬虫。我的基本实现可能涉及启动使用tasks来抓取页面的urlfetch,然后可选地插入其他任务来处理文档链接到的链接。您可以使用scheduled tasks启动抓取。