解析的最佳文件格式是什么?

时间:2010-05-06 21:45:02

标签: ms-access performance parsing file-format text-parsing

场景:我正在开发一个rails应用程序,它将以上传的基于文本的文件的形式输入数据。我需要在导入数据之前解析这些文件。我可以选择上传到应用程序的文件类型;这些上载使用的软件(Microsoft Access)有几个关于文件类型的导出选项。

虽然它可能无关紧要,但我想知道是否存在最有效解析的特定文件类型。我相信这个问题可以被视为与语言无关。

(虽然XML经常被解析,但为了这个项目,它不是一个可行的文件类型。)

4 个答案:

答案 0 :(得分:2)

您可能需要查看JSON。它是一种轻量级格式,与XML相比,解析起来非常简单和干净,而且后端不需要庞大的库。

它可以表示类型,如字符串,数字,assosiative数组(对象),以及此类

的列表

答案 1 :(得分:2)

如果是Access导出的内容,最简单的就是CSV;特别是因为Ruby在standard library中包含一个CSV解析器。你将不得不做一些工作来确定CSV的方言(它用于分隔符,它如何处理引号);我不知道ruby解析器对这些问题有多强大,但你也应该从Microsoft Access获得一些控制权。

答案 2 :(得分:0)

对于包含 n 的数据,我建议使用n-SV(其中 n 是某些字符)。这将使文件变为split

如果你有更灵活的数据,我会建议JSON。

答案 3 :(得分:0)

如果你必须推出自己的解析器,我建议使用CSV或某种形式的分隔符分隔格式。

如果您能够使用其他库,则有很多选项。 JSON看起来非常迷人。