使用CKAN Open Data Portal,您可以定义一个收获作业,这是一种可以从各种来源收集数据并将其存储在门户中的服务。其中一个选择是从另一个CKAN Source收获。我已经设法这样做了,但是收割机收集了那个远程实例上的所有数据集,这对于我们需要的东西来说太过分了。
有没有办法在CKAN中指定要收集哪些数据集,而不是获得没有例外的所有数据集?
一些元数据: - Ubuntu服务器14.04 - Python 2.7 - 最新版CKAN(2.5?) - Rabbit-mq消息代理(如果需要可以选择Redis)
答案 0 :(得分:0)
最接近的是使用organizations_filter_include
选项。请参阅CKAN harvester docs。在源CKAN上,您需要将您想要收集的数据集放入特定组织。
虽然这可能不太方便,所以你可以用组代替它。这需要在ckanharvester.py中进行一些复制和粘贴以适应organizations_filter_include
功能。欢迎提出拉动请求(如果您根据AGPL许可在公共网站上进行此更改,则确实是强制性的。)
最灵活的方法是添加新的收集器配置选项,以通过搜索字符串指定数据集,搜索字符串将作为fq_terms
传递给_search_for_datasets
。再次,这将是一个值得欢迎的贡献。