应用错误收集

时间：2018-01-08 17:49:00

标签： python apache ubuntu-14.04 ckan

使用CKAN Open Data Portal，您可以定义一个收获作业，这是一种可以从各种来源收集数据并将其存储在门户中的服务。其中一个选择是从另一个CKAN Source收获。我已经设法这样做了，但是收割机收集了那个远程实例上的所有数据集，这对于我们需要的东西来说太过分了。

有没有办法在CKAN中指定要收集哪些数据集，而不是获得没有例外的所有数据集？

一些元数据： - Ubuntu服务器14.04 - Python 2.7 - 最新版CKAN（2.5？） - Rabbit-mq消息代理（如果需要可以选择Redis）

答案 0 :(得分：0)

最接近的是使用organizations_filter_include选项。请参阅CKAN harvester docs。在源CKAN上，您需要将您想要收集的数据集放入特定组织。

虽然这可能不太方便，所以你可以用组代替它。这需要在ckanharvester.py中进行一些复制和粘贴以适应organizations_filter_include功能。欢迎提出拉动请求（如果您根据AGPL许可在公共网站上进行此更改，则确实是强制性的。）

最灵活的方法是添加新的收集器配置选项，以通过搜索字符串指定数据集，搜索字符串将作为fq_terms传递给_search_for_datasets。再次，这将是一个值得欢迎的贡献。