我需要编写一个抓取工具,仅从少数预选网站中提取一些信息。
我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。
可能我可以尝试Nutch为我做这件事。
这种完成方式有多可行?
1)在Google基础架构上托管抓取工具 2)Nutch + app引擎 - 可以吗?
答案 0 :(得分:4)
只是浏览nutch docs,我看到的评论就像“[t]他是Nutch的第二个版本完全基于底层的Hadoop平台” 这让我怀疑这不会在App Engine上运行。 App Engine应用程序在Python或Java沙箱中运行。
那就是说,你应该能够在App Egnine上放置一个基本的爬虫。我的基本实现可能涉及启动使用tasks来抓取页面的urlfetch,然后可选地插入其他任务来处理文档链接到的链接。您可以使用scheduled tasks启动抓取。