Question

我被困住了。几天来一直试图解析这个文本（看看底部）。但无法弄清楚一些事情。首先，文本以树形结构格式化，具有固定宽度的列，但确切的列宽取决于最宽的字段。

我正在使用ruby，首先我尝试了Treetop gem并取得了一些进展，但后来决定尝试Parslet，所以我现在正在使用它，它看起来应该更容易，但是很难找到它的详细文档

目前我单独解析每一行并使用已解析的条目创建数组，但这不正确，因为我松散了结构。我需要递归地解析它并处理深度。

我非常感谢任何提示，想法和建议。

这是我当前的代码，它可以工作，但所有数据都是扁平化的。我目前的想法是递归解析，如果当前行开始位置比前一行（即宽度）大，那么这意味着我们应该进入更深层次。实际上我设法做到了这一点，但后来我无法正常到外面所以我删除了那段代码。

require 'pp'
require 'parslet'
require 'parslet/convenience'


class TextParser < Parslet::Parser
    @@width = 5

    root :text

    rule(:text)   { (line >> newline).repeat }

    rule(:line) { left >> ( topline | subline ).as(:entry) }

    rule(:topline) {
        float.as(:number) >> str('%') >> space >> somestring.as(:string1) >> space >> specialstring.as(:string2) >> space >> specialstring.as(:string3)
    }

    rule(:subline) {
        dynamic { |source, context|
            width = context.captures[:width].to_s.length
            width = width-1 if context.captures[:width].to_s[-1] == '|'
            if width > @@width
                # should be recursive
                result = ( specialline | lastline | otherline | empty )
            else
                result = ( specialline | lastline | otherline | empty )
            end
            @@width = width
            result
        }
    }

    rule(:otherline) {
        somestring.as(:string1)
    }

    rule(:specialline) {
        float.as(:number) >> str('%') >> dash >> space? >> specialstring.as(:string1)
    }

    rule(:lastline) {
        float.as(:number) >> str('%') >> dash >> space? >> str('[...]')
    }

    rule(:empty) {
        space?
    }

    rule(:left) {  seperator.capture(:width) >> dash?.capture(:dash) >> space? }

    rule(:somestring) { match['0-9A-Za-z\.\-'].repeat(1) }
    rule(:specialstring) { match['0-9A-Za-z&()*,\.:<>_~'].repeat(1) }

    rule(:space) { match('[ \t]').repeat(1) }
    rule(:space?) { space.maybe }
    rule(:newline) { space? >> match('[\r\n]').repeat(1) }

    rule(:seperator) { space >> (str('|') >> space?).repeat }
    rule(:dash) { space? >> str('-').repeat(1) }
    rule(:dash?) { dash.maybe }

    rule(:float)   { (digits >> str('.') >> digits) }
    rule(:digits)   { match['0-9'].repeat(1) }

end

parser = TextParser.new

file = File.open("text.txt", "rb")
contents = file.read.to_s
file.close

pp parser.parse_with_debug(contents)

文字看起来像这样（https://gist.github.com/davispuh/4726538）

 1.23%  somestring  specialstring                    specialstring
        |
        --- specialstring
           |          
           |--12.34%-- specialstring
           |          specialstring
           |          |          
           |          |--12.34%-- specialstring
           |          |          specialstring
           |          |          |          
           |          |          |--12.34%-- specialstring
           |          |           --1.12%-- [...]
           |          |          
           |           --2.23%-- specialstring
           |                     |          
           |                     |--12.34%-- specialstring
           |                     |          specialstring
           |                     |          specialstring
           |                     |          |          
           |                     |          |--12.34%-- specialstring
           |                     |          |          specialstring
           |                     |          |          specialstring
           |                     |           --1.23%-- [...]
           |                     |          
           |                      --1.23%-- [...]
           |                                 
            --1.05%-- [...]

 1.23%  somestring  specialstring                    specialstring
 2.34%  somestring  specialstring                    specialstring  
        |
        --- specialstring
            specialstring
            specialstring
           |          
           |--23.34%-- specialstring
           |          specialstring
           |          specialstring
            --34.56%-- [...]

        |
        --- specialstring
            specialstring
           |          
           |--12.34%-- specialstring
           |          |          
           |          |--100.00%-- specialstring
           |          |          specialstring
           |           --0.00%-- [...]
            --23.34%-- [...]

谢谢：）

Answer 1

我要说的是“天人”。必须有另一种格式可以生成数据。

如果你想解析这个... Parslet就像map / reduce algorythm一样。您是第一次通过（解析）并不是为了给您最终输出，只是为了从源文档中捕获所需的所有信息。

一旦存储在树中，您就可以对其进行转换以获得所需的输出。

所以...我会编写一个解析器，将每个空白区域记录为节点，并匹配所需的文本和百分比。我会将空白节点分组为“缩进”节点。

然后我会使用转换来用节点数替换空白节点来计算缩进。

记住：Parslet生成标准的ruby哈希。然后，您可以编写任何您喜欢的代码来理解这棵树。

解析器只是将文本文件转换为您可以操作的数据结构。

但重申一下。我认为“天人”有正确的答案..而是以机器可读的方式生成数据。

<强>更新

有关替代方法，您可以查看：Indentation sensitive parser using Parslet in Ruby?

使用ruby中的parslet解析使用固定宽度列构造为树的文本

我非常感谢任何提示，想法和建议。

1 个答案: