使用ruby中的parslet解析使用固定宽度列构造为树的文本

时间:2013-02-07 01:11:37

标签: ruby parsing text abstract-syntax-tree parslet

我被困住了。几天来一直试图解析这个文本(看看底部)。但无法弄清楚一些事情。首先,文本以树形结构格式化,具有固定宽度的列,但确切的列宽取决于最宽的字段。

我正在使用ruby,首先我尝试了Treetop gem并取得了一些进展,但后来决定尝试Parslet,所以我现在正在使用它,它看起来应该更容易,但是很难找到它的详细文档

目前我单独解析每一行并使用已解析的条目创建数组,但这不正确,因为我松散了结构。我需要递归地解析它并处理深度。

我非常感谢任何提示,想法和建议。


这是我当前的代码,它可以工作,但所有数据都是扁平化的。我目前的想法是递归解析,如果当前行开始位置比前一行(即宽度)大,那么这意味着我们应该进入更深层次。实际上我设法做到了这一点,但后来我无法正常到外面所以我删除了那段代码。

require 'pp'
require 'parslet'
require 'parslet/convenience'


class TextParser < Parslet::Parser
    @@width = 5

    root :text

    rule(:text)   { (line >> newline).repeat }

    rule(:line) { left >> ( topline | subline ).as(:entry) }

    rule(:topline) {
        float.as(:number) >> str('%') >> space >> somestring.as(:string1) >> space >> specialstring.as(:string2) >> space >> specialstring.as(:string3)
    }

    rule(:subline) {
        dynamic { |source, context|
            width = context.captures[:width].to_s.length
            width = width-1 if context.captures[:width].to_s[-1] == '|'
            if width > @@width
                # should be recursive
                result = ( specialline | lastline | otherline | empty )
            else
                result = ( specialline | lastline | otherline | empty )
            end
            @@width = width
            result
        }
    }

    rule(:otherline) {
        somestring.as(:string1)
    }

    rule(:specialline) {
        float.as(:number) >> str('%') >> dash >> space? >> specialstring.as(:string1)
    }

    rule(:lastline) {
        float.as(:number) >> str('%') >> dash >> space? >> str('[...]')
    }

    rule(:empty) {
        space?
    }

    rule(:left) {  seperator.capture(:width) >> dash?.capture(:dash) >> space? }

    rule(:somestring) { match['0-9A-Za-z\.\-'].repeat(1) }
    rule(:specialstring) { match['0-9A-Za-z&()*,\.:<>_~'].repeat(1) }

    rule(:space) { match('[ \t]').repeat(1) }
    rule(:space?) { space.maybe }
    rule(:newline) { space? >> match('[\r\n]').repeat(1) }

    rule(:seperator) { space >> (str('|') >> space?).repeat }
    rule(:dash) { space? >> str('-').repeat(1) }
    rule(:dash?) { dash.maybe }

    rule(:float)   { (digits >> str('.') >> digits) }
    rule(:digits)   { match['0-9'].repeat(1) }

end

parser = TextParser.new

file = File.open("text.txt", "rb")
contents = file.read.to_s
file.close

pp parser.parse_with_debug(contents)

文字看起来像这样(https://gist.github.com/davispuh/4726538

 1.23%  somestring  specialstring                    specialstring
        |
        --- specialstring
           |          
           |--12.34%-- specialstring
           |          specialstring
           |          |          
           |          |--12.34%-- specialstring
           |          |          specialstring
           |          |          |          
           |          |          |--12.34%-- specialstring
           |          |           --1.12%-- [...]
           |          |          
           |           --2.23%-- specialstring
           |                     |          
           |                     |--12.34%-- specialstring
           |                     |          specialstring
           |                     |          specialstring
           |                     |          |          
           |                     |          |--12.34%-- specialstring
           |                     |          |          specialstring
           |                     |          |          specialstring
           |                     |           --1.23%-- [...]
           |                     |          
           |                      --1.23%-- [...]
           |                                 
            --1.05%-- [...]

 1.23%  somestring  specialstring                    specialstring
 2.34%  somestring  specialstring                    specialstring  
        |
        --- specialstring
            specialstring
            specialstring
           |          
           |--23.34%-- specialstring
           |          specialstring
           |          specialstring
            --34.56%-- [...]

        |
        --- specialstring
            specialstring
           |          
           |--12.34%-- specialstring
           |          |          
           |          |--100.00%-- specialstring
           |          |          specialstring
           |           --0.00%-- [...]
            --23.34%-- [...]

谢谢:)

1 个答案:

答案 0 :(得分:2)

我要说的是“天人”。必须有另一种格式可以生成数据。

如果你想解析这个... Parslet就像map / reduce algorythm一样。 您是第一次通过(解析)并不是为了给您最终输出,只是为了从源文档中捕获所需的所有信息。

一旦存储在树中,您就可以对其进行转换以获得所需的输出。

所以...我会编写一个解析器,将每个空白区域记录为节点,并匹配所需的文本和百分比。我会将空白节点分组为“缩进”节点。

然后我会使用转换来用节点数替换空白节点来计算缩进。

记住:Parslet生成标准的ruby哈希。然后,您可以编写任何您喜欢的代码来理解这棵树。

解析器只是将文本文件转换为您可以操作的数据结构。

但重申一下。我认为“天人”有正确的答案..而是以机器可读的方式生成数据。

<强>更新

有关替代方法,您可以查看:Indentation sensitive parser using Parslet in Ruby?