我正在尝试使用python解析专有的二进制格式(Wintec NAL)。现有的和正在使用的C代码也是如此(作者:Dennis Heynlein),我正在尝试移植到Python。
我很难理解部分C代码。以下是C:
中二进制格式的定义/*
* File extension:. NAL
* File format: binary, 32 byte fixed block length
*/
/*
* For now we will read raw structs direct from the data file, ignoring byte
* order issues (since the data is in little-endian form compatible with i386)
*
* XXX TODO: write marshalling functions to read records in the proper
* byte-order agnostic way.
*/
#pragma pack (1)
typedef struct nal_data32 {
unsigned char point_type; /* 0 - normal, 1 - start, 2 - marked */
unsigned char padding_1;
unsigned int second: 6, minute: 6, hour: 5;
unsigned int day: 5, month: 4, year: 6; /* add 2000 to year */
signed int latitude; /* divide by 1E7 for degrees */
signed int longitude; /* divide by 1E7 for degrees */
unsigned short height; /* meters */
signed char temperature; /* °C */
unsigned short pressure; /* mbar */
unsigned char cadence; /* RPM */
unsigned char pulse; /* BPM */
signed char slope; /* degrees */
signed short compass; /* °Z axis */
signed short roll; /* °X axis */
signed short yaw; /* °Y axis */
unsigned char speed; /* km/h */
unsigned char bike; /* ID# 0-3 */
unsigned char padding_2;
unsigned char padding_3;
} nal_t;
我正在使用python-bitstring在Python中复制此功能,但我很难理解上面给出的时间格式并将其应用到Python中。
from bitstring import ConstBitStream
nal_format=('''
uint:8,
uint:8,
bin:32,
intle:32,
intle:32,
uint:16,
uint:8,
uint:16,
uint:8,
uint:8,
uint:8,
uint:16,
uint:16,
uint:16,
uint:8,
uint:8,
uint:8,
uint:8
''')
f = ConstBitStream('0x01009f5a06379ae1cb13f7a6b62bca010dc703000000c300fefff9ff00000000')
f.pos=0
#type,padding1,second,minute,hour,day,month,year,lat,lon,height,temp,press,cad,pulse,slope,compass,roll,yaw,speed,bike,padding2,padding3=f.peeklist(nal_format)
type,padding1,time,lat,lon,height,temp,press,cad,pulse,slope,compass,roll,yaw,speed,bike,padding2,padding3=f.readlist(nal_format)
print type
print padding1
#print second
#print minute
#print hour
#print day
#print month
#print year
print time
print lat
print lon
虽然我已经发现纬度和经度必须被定义为小端,但我不知道如何调整32位宽的时间戳,因此它符合C-definition中给出的格式(而且我也不能'找出“高度”的匹配掩码 - 相应地我没有尝试后面的字段。)
以上是十六进制字符串的值:
答案 0 :(得分:4)
我不熟悉bitstring
,因此我会将您的输入转换为压缩二进制数据,然后使用struct
来处理它。如果您对该部分不感兴趣,请跳到休息时间。
import binascii
packed = binascii.unhexlify('01009f5a06379ae1cb13f7a6b62bca010dc703000000c300fefff9ff00000000')
如果你愿意,我可以更详细地介绍这一部分。它只是将'0100...'
转变为b'\x01\x00...'
。
现在,解包这个问题的唯一“问题”是确定你只需要解压缩一个unsigned int,因为该位字段适合32位(单个unsigned int的宽度):
format = '<ccIiiHbHBBbhhhBBBB'
import struct
struct.unpack(format,packed)
Out[49]:
('\x01',
'\x00',
923163295,
...
)
将输出转换为我们可以使用的输出。您可以将其解压缩到您的长变量列表中,就像之前一样。
现在,您的问题似乎集中于如何屏蔽time
(上方:923163295
)以从位字段中获取正确的值。这只是一点点数学:
second_mask = 2**6 - 1
minute_mask = second_mask << 6
hour_mask = (2**5 - 1) << (6+6)
day_mask = hour_mask << 5
month_mask = (2**4 - 1) << (6+6+5+5)
year_mask = (2**6 - 1) << (6+6+5+5+4)
time & second_mask
Out[59]: 31
(time & minute_mask) >> 6
Out[63]: 42
(time & hour_mask) >> (6+6)
Out[64]: 5
(time & day_mask) >> (6+6+5)
Out[65]: 3
(time & month_mask) >> (6+6+5+5)
Out[66]: 12
(time & year_mask) >> (6+6+5+5+4)
Out[67]: 13L
在功能形式中,整个事情更自然:
def unmask(num, width, offset):
return (num & (2**width - 1) << offset) >> offset
哪个(现在我想到了)重新排列成:
def unmask(num, width, offset):
return (num >> offset) & (2**width - 1)
unmask(time, 6, 0)
Out[77]: 31
unmask(time, 6, 6)
Out[78]: 42
#etc
如果你想获得幻想,
from itertools import starmap
from functools import partial
width_offsets = [(6,0),(6,6),(5,12),(5,17),(4,22),(6,26)]
list(starmap(partial(unmask,time), width_offsets))
Out[166]: [31, 42, 5, 3, 12, 13L]
正确格式化所有这些数字,最后出现预期的日期/时间:
'20{:02d}/{:02d}/{:02d}-T{:02d}:{:02d}:{:02d}'.format(*reversed(_))
Out[167]: '2013/12/03-T05:42:31'
(有可能用bitstring
模块优雅地完成所有这些按位数学计算,但我发现从第一原理解决问题我觉得很满意。)
答案 1 :(得分:3)
'C'结构中的时间戳是'C'位域。编译器使用冒号后面的数字在较大的字段定义中分配多个位。在这种情况下,unsigned int(4个字节)。请查看here以获得更好的解释。对于位字段来说,最重要的是根据计算机的字节序类型分配位,因此它们不是非常便携。
您的Python格式声明中似乎存在错误。它可能应该为日期分配额外的4字节unsigned int。类似的东西:
nal_format=('''
uint:8,
uint:8,
bin:32,
bin:32,
intle:32,
intle:32,
''')
要表示Python中的位字段,请使用Python位数组来表示位。查看this。
另外需要注意的是,结构上的包(1)。它告诉编译器在一个字节边界上对齐。换句话说,不要在字段之间添加任何填充。通常,对齐是4个字节,导致编译器在4字节边界上启动每个字段。查看here了解详情。