将包含十六进制行的multitype系列转换为ascii

时间:2017-03-12 04:01:27

标签: python python-3.x pandas

我有一个如下的数据框:

  type     value                                                                                                                                                                                                                                                    
  hex      "6d,79,20,6e,61,6d,65,20,69,73,20,6a,6f,68,6e,0a"                                                                                                                                                                                                    
  name     john                                                                                                                                                                                                                                                     
  dynamic  12                                                                                                                                                                                                                                                       
  action   encroach                                                                                                                                                                                                                                                 
  hex_2    "4d,69,6e,65,20,69,73,20,73,61,75,6c,2c,20,6e,69,63,65,20,74,6f,20,6d,65,65,74,20,79,6f,75,2e,20"                                                                                                                                                    
  hex      "4d,79,20,6e,61,6d,65,20,69,73,20,4d,61,74,74"                                                                                                                                                                                                           
  name     Matt                                                                                                                                                                                                                                                     
  dynamic  91                                                                                                                                                                                                                                                       
  action   penalty                                                                                                                                                                                                                                                  
  hex_2   "49,20,61,6d,20,61,6e,20,65,6e,63,6f,64,65,64,20,6d,65,73,73,61,67,65,20,74,68,61,74,20,49,20,68,61,76,65,20,74,6f,20,6b,65,65,70,20,69,6e,74,65,72,6e,61,6c,20,74,6f,20,6d,79,20,6f,72,67,61,6e,69,7a,61,74,69,6f,6e,2e,20"                              

如何有条理地将hex和hex_2重新格式化为ascii?

使用函数调用将当前代码转换为ascii的当前代码如下:

def ascii_convert(char):
    value = int(char, 16)
    if 32 <= value < 128:
        return chr(value)
    else:
        return char

Current Failed attempt at converting:
print(df[df['type'].str.contains('hex|hex_2').apply(lambda x: ascii_convert(x)))

预期产出:

  type     value                                                                                                                                                                                                                                                    
  hex      my name is john      # converted                                                                                                                                                                                             
  name     john                 # Untouched                                                                                                                                                                                                                                 
  dynamic  12                   # Untouched                                                                                                                                                                                                                                 
  action   encroach             # Untouched                                                                                                                                                                                                                                     
  hex_2    Mine is saul, nice to meet you.  # converted                                                                                                                                             
  hex      My name is Matt      # converted                                                                                                                                                                                                 
  name     Matt                 # Untouched                                                                                                                                                                                                                                 
  dynamic  91                   # Untouched                                                                                                                                                                                                                                 
  action   penalty              # Untouched                                                                                                                                                                                                                                     
  hex_2    I am an encoded message that I have to keep internal to my organization.   # converted           

我知道转换功能适用于角色,但在我的特定条件下使用该功能时遇到问题。我的数据类型标签可以有5个或6个不同的标签,我想从hex转换为ascii,例如hex和hex_2。

任何帮助都会很棒。谢谢。

2 个答案:

答案 0 :(得分:1)

尝试失败,因为str.contains('hex|hex_2')您尝试匹配确切的字符串'hex | hex_2'。但不存在具有该名称的列。

相反,由于您确认要转换的所有列在名称中都有字符串'hex',因此应该这样做。

 data["value"] = df.apply(lambda x: convert_ascii(x["value"]) \
 if 'hex' in x["type"] else x["value"], axis=1)

这会选择type列中带有“十六进制”的行的值并转换它们,而其他列则保持不变

这是一个例子:

  one  two labels
0  70  1      o
1  67  0      b
2  57  1      o
3  64  1      b
4  74  0      o
5  65  1      b
6  56  1      o
7  59  1      b
8  60  1      o
9  63  0      b

应用功能并更新标签栏:

data["type"] = data.apply(lambda x: x["labels"] *4 \
               if x["one"] >= 60 else x["labels"], axis=1)

   one  two labels
0   70    1   oooo
1   67    0   bbbb
2   57    1      o
3   64    1   bbbb
4   74    0   oooo
5   65    1   bbbb
6   56    1      o
7   59    1      b
8   60    1   oooo
9   63    0   bbbb

答案 1 :(得分:1)

有一些错误处理和数据问题。如果它们没有包含正确的数据要求,那么最终会从我的所有文件中删除空字节和错误处理。

def fn(foo):
    if "NONE" in foo:
        return foo
    else:
        try:
            x = foo.replace(' ', '')
            x = foo.replace('00', '')
            return "".join(binascii.unhexlify(x).decode())
        except:
            binascii.Error

df['Value'] = df['Value'].str.split(',')
df['Value'] = df[df['Type'].str.contains('hex')]['Value'].apply(lambda x: fn("".join(x)))