应用错误收集

在google精简中获取网址时如何处理大型数据集？

时间：2012-08-10 23:34:15

标签： freebase google-refine

所以，我有一个excel表，电影名称大约来自freebase的190000个标题，我想从维基百科中获取信息，从标题中获取网址，这需要很长时间，我让我的电脑运行了8个小时，它刚刚达到2％。有时我的互联网被切断了，我必须从头开始重新开始。无论如何，我一次可以做100条记录，并一直持续到文件结束，所以如果我的互联网丢失，我可以恢复这个过程。

非常感谢。

1 个答案:

答案 0 :(得分：1)

〜200K提取可能是您应该开始使用Freebase或Wikipedia批量转储的地方。默认的Refine获取速率间隔为5000毫秒（即5秒），这比大多数Web服务需要的时间长得多。您可以将其降低到500毫秒或更低。

您无需从个人计算机上运行任何内容。您可以使用亚马逊的EC2或其他具有永久连接和正常运行时间的服务。

不幸的是，Refine的“通过提取URL添加列”操作目前无法重新启动，因此您需要确保可以完成它。如果您无法保证正常运行时间/连接性，那么您唯一的其他解决方案是：a）以较小的块进行操作或b）使用不同的工具。