我有一个包含36,000行数据的Google精简项目。我想添加另一个列,从freebase url中获取json数据。我能够在一个小数据集上运行它,但是当我在这个项目上运行它时需要几个小时来处理,然后大多数结果是空白的。我确实得到了一些数据结果。有没有办法限制数据获取的行数或从URL获取数据的更好方法。
谢谢!
答案 0 :(得分:2)
如果您要从Freebase添加数据,最好使用“从Freebase添加列”而不是“通过提取URL添加列”。
Facets是最强大的Google Refine功能之一,它们可用于控制各种事物。在这种情况下,您可以使用构面来选择数据的子集,并仅对该子集进行提取(然后使用不同的子集重复)。
下一版本的Refine将包括更好的错误报告URL提取结果,以帮助调试此类问题,但请确保您尊重远程站点的所有限制,直到请求总数,请求每秒等等。