在google精简中获取网址时如何处理大型数据集?

时间:2012-08-10 23:34:15

标签: freebase google-refine

所以,我有一个excel表,电影名称大约来自freebase的190000个标题,我想从维基百科中获取信息,从标题中获取网址,这需要很长时间,我让我的电脑运行了8个小时,它刚刚达到2%。有时我的互联网被切断了,我必须从头开始重新开始。无论如何,我一次可以做100条记录,并一直持续到文件结束,所以如果我的互联网丢失,我可以恢复这个过程。

非常感谢。

1 个答案:

答案 0 :(得分:1)

〜200K提取可能是您应该开始使用Freebase或Wikipedia批量转储的地方。默认的Refine获取速率间隔为5000毫秒(即5秒),这比大多数Web服务需要的时间长得多。您可以将其降低到500毫秒或更低。

您无需从个人计算机上运行任何内容。您可以使用亚马逊的EC2或其他具有永久连接和正常运行时间的服务。

不幸的是,Refine的“通过提取URL添加列”操作目前无法重新启动,因此您需要确保可以完成它。如果您无法保证正常运行时间/连接性,那么您唯一的其他解决方案是:a)以较小的块进行操作或b)使用不同的工具。