应用错误收集

您如何最有效地存储纬度和经度数据？

时间：2011-02-08 06:27:06

标签： latitude-longitude space-efficiency

这个问题来自我给的家庭作业。您可以将存储系统基于以下三种格式之一：

DD MM SS.S

DD MM.MMM

DD.DDDDD

您希望使用尽可能少的字节来最大化您可以存储的数据量。

我的解决方案基于第一种格式。我使用3个字节作为纬度：DD为8比特（-90到90），MM为0比特（0-59），SS.S为10比特（0-59.9）。然后我使用25位经度：DDD为9位（-180到180），MM为6位，SS.S为10位。这个解决方案并不适合在字节边界上，但我认为下一个读数可以紧跟在前一个读数之后存储，而8个读数只能使用49个字节。

我很好奇其他人可以采用什么方法。是否有更有效的方法来存储这些数据？作为一个注释，我考虑了一个基于偏移的存储，但问题没有说明读数之间的值可能会有多大变化，所以我假设任何变化都是可能的。

3 个答案:

答案 0 :(得分：2)

您建议的方法不是最佳方法。您正在使用10位（1024个可能的值）来存储范围（0..599）中的值。这是浪费空间。

如果您将3个字节用于纬度，则应将范围[0,2 ^ 24-1]映射到范围[-90,90]。因此，2 ^ 24个值中的每一个代表180/2 ^ 24度，这是0.086秒。

如果你只需要0.1秒的精度，那么纬度需要23位，经度需要24位（准确度为0.077秒）。总共47位而不是49位，精度更高。

我们能做得更好吗？

0.1秒精度所需的确切位数是log2（180 * 60 * 60 * 10 * 360 * 60 * 60 * 10）＆lt; 46.256。这意味着您可以使用46256位（5782字节）来存储1000（lat，lon）对，但所涉及的数学将需要处理非常大的整数。

我们能做得更好吗？

这取决于。如果您的数据集具有浓度，则可以使用较少的位仅存储这些点的某些点和相对距离。应该使用聚类算法。

答案 1 :(得分：1)

坚持现有技术：

如果您使用half precision floating point numbers仅存储DD.DDDDD数据，那么您可以获得更高的空间效果，但您必须接受exponent bias的15 ，表示：存储的坐标可能不准确，但偏离原始值。

这是由于浮点数的存储方式，基本上是：标准化的有效乘以指数得到一个数字，而不仅仅是存储一个单个值（如整数，计算解决方案的数字的方式）。

下一个最常用的浮点数机制使用32位（许多编程语言中的“float”类型） - 仍然有效，但比自定义格式大。

但是，如果您也设计自己的自定义浮点类型，并且逐渐添加更多位，则结果会更精确，并且它仍然比您最初找到的解决方案更有效。只需使用用于显着和指数的位数，并找出你的fp近似值接近所需结果的程度！

答案 2 :(得分：0)

那么，如果这是针对大量读数的话，那么您可以尝试差分方法。从绝对位置开始，然后开始保存增量更改，理想情况下需要更少的位，具体取决于更改的性质。这有效地压缩了流。但不知怎的，我不认为这是家庭作业的内容。