机器可读性:遵循的指导原则,可以在CKAN上很好地预览数据

时间:2014-06-19 06:33:12

标签: preview file-format readability ckan dos-donts

有哪些指导原则可以在CKAN数据预览工具上很好地预览数据?我正在研究CKAN并且一直在上传数据或将其链接到外部网站。有些可以很好地预览,有些则没有。我一直在网上研究机器可读性,并且找不到任何与CKAN有关的资源,这些资源说明了构造数据的正确方法,以便可以在CKAN上很好地预览。我希望收集你们所有人对“不做”和“不做”的回应,以便将来对CKAN出版商和开发者有用。

例如,数据必须采用带有标记行和列的表格格式。数据必须存储在电子表格的第一个选项卡上,因为无法预览其他选项卡。电子表格不能包含公式或宏。数据必须以正确的文件格式存储(请参阅我的另一个主题:Which file formats can be previewed on CKAN Data Preview tool?

谢谢!

3 个答案:

答案 0 :(得分:3)

由于CKAN是一个开源数据管理系统,因此没有关于数据机器可读性的具体指导。相反,您可能希望在此处查看当前的数据开放性和机器可读性标准:http://5stardata.info

英国对CKAN的实施还包括一组插件,这些插件有助于根据这里的5星开放数据方案评估数据的开放性:https://github.com/ckan/ckanext-qa

答案 1 :(得分:1)

  1. 检查数据推送器日志 - 当您在CKAN数据存储中托管文件时 - 加载数据的工具提供日志 - 这些将揭示数据格式的问题。
  2. 本地存储数据 - 尽可能在本地存储数据 - 因为存储在其他地方的数据必须通过代理进程(https://github.com/okfn/dataproxy),这个进程较慢,当然要受外部站点维护可用性的限制。
  3. 考虑文件大小和连接性 - 保持文件大小足够小,以便安装和连接,以便在加载到CKAN Data Explorer时不会超时。如果文件是外部托管的并且文件很大并且对文件的访问速度很慢(连接性差或负载太大),那么最终会导致超时,因为代理必须在呈现预览之前读取整个文件。再次在本地托管数据应该意味着更好地控制计算资源上的负载并确保数据资源管理器一致地工作。
  4. 使用开放文件格式 - 如果您使用CKAN发布开放数据 - 那么社区通常认为最好以开放格式(例如CSV,TXT)而不是专有格式(例如XLS)发布数据。除了增加对所有用户的数据访问权限 - 并减少数据未正确构建以进行预览的可能性之外 - 这还有其他优势。例如,偶然发布您不想要的information更难。
  5. 验证您的数据 - 使用CSVKIT之类的工具来检查您的数据是否处于良好状态。

答案 2 :(得分:1)

获得良好预览体验的最佳方式是开始使用DataStore。查看远程数据时,CKAN必须使用DataProxy尽力猜测数据类型并将数据转换为可预览的表单。如果您将数据放入DataStore并不是必需的,因为数据已经处于良好的结构中并且已经设置了类型(例如,您知道此列是日期而不是数字)。