Google优化并从freebase获取大型数据集中的数据,以便从URL无法正常创建列

时间:2012-03-06 01:55:58

标签: json freebase mql google-refine

我有一个包含36,000行数据的Google精简项目。我想添加另一个列,从freebase url中获取json数据。我能够在一个小数据集上运行它,但是当我在这个项目上运行它时需要几个小时来处理,然后大多数结果是空白的。我确实得到了一些数据结果。有没有办法限制数据获取的行数或从URL获取数据的更好方法。

谢谢!

1 个答案:

答案 0 :(得分:2)

如果您要从Freebase添加数据,最好使用“从Freebase添加列”而不是“通过提取URL添加列”。

Facets是最强大的Google Refine功能之一,它们可用于控制各种事物。在这种情况下,您可以使用构面来选择数据的子集,并仅对该子集进行提取(然后使用不同的子集重复)。

下一版本的Refine将包括更好的错误报告URL提取结果,以帮助调试此类问题,但请确保您尊重远程站点的所有限制,直到请求总数,请求每秒等等。