在Python中解析复杂的文本文件

时间:2013-08-13 03:14:15

标签: python python-3.3

我有一个如下文本文件:

#some_line
    @another_line
        original_string1|new_string1
#some_other_line
    @and_another_line
        original_string2|new_string2

我希望能够将带有@的每一行与前一行的#相关联。 我似乎无法找到在python中实现这一目标的策略。

这是我目前的代码:

    with open(self.file, 'r') as f:
        for i, line in enumerate(f):
            line = line.strip(' \t\n\r')
            if '#' in line[:1]:
                self.parent[i] = line[1:]
            if '@' in line[:1]:
                self.child[i] = line[1:]
            if '|' in line:
                key, value = line.split('|')
                self.strings[key] = value

我需要能够引用每个父条目并将子条目与它相关联。 带有'|'的行也需要与父母联系。

2 个答案:

答案 0 :(得分:1)

我认为你想要的是从子字符串到父字符串的映射。或者您可能希望从子字符串和父字符串映射回行号。

所以这就是我要做的事情:构建从字符串到行号的映射(我假设每个映射都是唯一的,但如果没有则应该很容易修复),并且还建立从子行号到父母行号。如果你真的需要字符串到字符串的映射,或其他任何东西,你应该能够从中找出它。

字符串到行号部分很简单,但对于子到父部分,我们需要跟踪我们看到的最后一个父行号。

child_lines, parent_lines, child_parents = {}. {}. {}
last_parent_line = None
with open(self.file) as f:
    for i, line in enumerate(f):
        line = line.strip(' \t\n\r')
        marker, value = line[0], line[1:]
        if marker == '#':
            parent_lines[value] = i
            last_parent_line = i
        elif marker == '@':
            child_lines[value] = i
            child_parents[i] = last_parent_line

就是这样。

答案 1 :(得分:0)

这应该做的工作:

with open(self.file, 'r') as f:
    self.result = {}

    for line in f.readlines():
        line = line.strip()

        if line.startswith("#"):
            parent = line[1:]
            self.result[parent] = {}

        if line.startswith("@"):
            child = line[1:]
            self.result[parent][child] = {}

        if '|' in line:
            key, value = line.split('|')
            self.result[parent][child][key] = value

然后

print self.result
>>> {
    'some_other_line': {
        'and_another_line': {
            'original_string2': 'new_string2'
        }
    },
    'some_line': {
        'another_line': {
            'original_string1': 'new_string1'
        }
    }
}