Question

考虑以下数据结构：

[HEADER1]
{
   key value
   key value
   ...
   [HEADER2]
   {
      key value
      ...
   }
   key value
   [HEADER3]
   {
      key value
      [HEADER4]
      {
         key value
         ...
      }
   }
   key value
}

原始数据中没有缩进，但为了清楚起见，我在这里添加了缩进。键值对的数量未知，“......”表示可能还有更多在每个[HEADER]块内。 [HEADER]块的数量也是未知的。

请注意，该结构是嵌套的，因此在此示例中，标题2和3位于标题1内，标题4位于标题3内。

可以有更多（嵌套）标题，但我保持示例简短。

如何将其解析为嵌套字典结构？每个[HEADER]应该是大括号内的任何内容的关键。

最终结果应该是：

dict = {'HEADER1': 'contents of 1'}
contents of 1 = {'key': 'value', 'key': 'value', 'HEADER2': 'contents of 2', etc}

我猜我需要某种递归函数，但我对Python很陌生，不知道从哪里开始。

对于初学者，我可以按如下方式拉出所有[HEADER]键：

path = 'mydatafile.txt'
keys = []

with open (path, 'rt') as file:
   for line in file:
      if line.startswith('['):
         keys.append(line.rstrip('\n'))

for key in keys:
   print(key)

然后呢，也许这甚至不需要？

有什么建议吗？

Answer 1

您可以使用少量正则表达式预格式化文件内容，然后将其传递给json.loads

你可以逐一进行这类正则表达式替换：

＃1 \[(\w*)\]\n - ＆gt; "$1":

＃2 \}\n(\w) - ＆gt; },$1

＃3 (\w*)\s(\w*)\n([^}]) - ＆gt; $1:$2,$3

＃4 (\w*)\s(\w*)\n\} - ＆gt; $1:$2}

然后最后将最后一个字符串传递给json.loads：

import json
d = json.loads(s)

将解析为dict格式。

说明：

1。 \[(\w*)\]\n：将[HEADERS]\n替换为"HEADERS":

2。 \}\n(\w)：使用}

替换任何具有任何值的结束括号，},

3。 (\w*)\s(\w*)\n([^}])：将key value\n替换为key:value,，以获取包含任何下一个元素的行

4. (\w*)\s(\w*)\n\}：对于没有下一个元素的行，将key value\n替换为key:value

因此，通过对这些正则表达式的微小修改，您将能够将其解析为dict格式，基本概念是将文件内容重新格式化为可以轻松解析的格式。

Answer 2

我会转换 [头1] 至＆＃34;标题＆＃34;：＆＃34; HEADER1＆＃34;

关键值至＆＃34; key＆＃34;：＆＃34;值＆＃34;

用{}附上所有内容最后用json库解析它你可以用sed转换它

Python将文本文件解析为嵌套字典

2 个答案: