使用Harvester收集特定数据集?

时间:2018-01-08 17:49:00

标签: python apache ubuntu-14.04 ckan

使用CKAN Open Data Portal,您可以定义一个收获作业,这是一种可以从各种来源收集数据并将其存储在门户中的服务。其中一个选择是从另一个CKAN Source收获。我已经设法这样做了,但是收割机收集了那个远程实例上的所有数据集,这对于我们需要的东西来说太过分了。

有没有办法在CKAN中指定要收集哪些数据集,而不是获得没有例外的所有数据集?

一些元数据: - Ubuntu服务器14.04 - Python 2.7 - 最新版CKAN(2.5?) - Rabbit-mq消息代理(如果需要可以选择Redis)

1 个答案:

答案 0 :(得分:0)

最接近的是使用organizations_filter_include选项。请参阅CKAN harvester docs。在源CKAN上,您需要将您想要收集的数据集放入特定组织。

虽然这可能不太方便,所以你可以用组代替它。这需要在ckanharvester.py中进行一些复制和粘贴以适应organizations_filter_include功能。欢迎提出拉动请求(如果您根据AGPL许可在公共网站上进行此更改,则确实是强制性的。)

最灵活的方法是添加新的收集器配置选项,以通过搜索字符串指定数据集,搜索字符串将作为fq_terms传递给_search_for_datasets。再次,这将是一个值得欢迎的贡献。