我被困住了。几天来一直试图解析这个文本(看看底部)。但无法弄清楚一些事情。首先,文本以树形结构格式化,具有固定宽度的列,但确切的列宽取决于最宽的字段。
我正在使用ruby,首先我尝试了Treetop gem并取得了一些进展,但后来决定尝试Parslet,所以我现在正在使用它,它看起来应该更容易,但是很难找到它的详细文档
目前我单独解析每一行并使用已解析的条目创建数组,但这不正确,因为我松散了结构。我需要递归地解析它并处理深度。
这是我当前的代码,它可以工作,但所有数据都是扁平化的。我目前的想法是递归解析,如果当前行开始位置比前一行(即宽度)大,那么这意味着我们应该进入更深层次。实际上我设法做到了这一点,但后来我无法正常到外面所以我删除了那段代码。
require 'pp'
require 'parslet'
require 'parslet/convenience'
class TextParser < Parslet::Parser
@@width = 5
root :text
rule(:text) { (line >> newline).repeat }
rule(:line) { left >> ( topline | subline ).as(:entry) }
rule(:topline) {
float.as(:number) >> str('%') >> space >> somestring.as(:string1) >> space >> specialstring.as(:string2) >> space >> specialstring.as(:string3)
}
rule(:subline) {
dynamic { |source, context|
width = context.captures[:width].to_s.length
width = width-1 if context.captures[:width].to_s[-1] == '|'
if width > @@width
# should be recursive
result = ( specialline | lastline | otherline | empty )
else
result = ( specialline | lastline | otherline | empty )
end
@@width = width
result
}
}
rule(:otherline) {
somestring.as(:string1)
}
rule(:specialline) {
float.as(:number) >> str('%') >> dash >> space? >> specialstring.as(:string1)
}
rule(:lastline) {
float.as(:number) >> str('%') >> dash >> space? >> str('[...]')
}
rule(:empty) {
space?
}
rule(:left) { seperator.capture(:width) >> dash?.capture(:dash) >> space? }
rule(:somestring) { match['0-9A-Za-z\.\-'].repeat(1) }
rule(:specialstring) { match['0-9A-Za-z&()*,\.:<>_~'].repeat(1) }
rule(:space) { match('[ \t]').repeat(1) }
rule(:space?) { space.maybe }
rule(:newline) { space? >> match('[\r\n]').repeat(1) }
rule(:seperator) { space >> (str('|') >> space?).repeat }
rule(:dash) { space? >> str('-').repeat(1) }
rule(:dash?) { dash.maybe }
rule(:float) { (digits >> str('.') >> digits) }
rule(:digits) { match['0-9'].repeat(1) }
end
parser = TextParser.new
file = File.open("text.txt", "rb")
contents = file.read.to_s
file.close
pp parser.parse_with_debug(contents)
文字看起来像这样(https://gist.github.com/davispuh/4726538)
1.23% somestring specialstring specialstring
|
--- specialstring
|
|--12.34%-- specialstring
| specialstring
| |
| |--12.34%-- specialstring
| | specialstring
| | |
| | |--12.34%-- specialstring
| | --1.12%-- [...]
| |
| --2.23%-- specialstring
| |
| |--12.34%-- specialstring
| | specialstring
| | specialstring
| | |
| | |--12.34%-- specialstring
| | | specialstring
| | | specialstring
| | --1.23%-- [...]
| |
| --1.23%-- [...]
|
--1.05%-- [...]
1.23% somestring specialstring specialstring
2.34% somestring specialstring specialstring
|
--- specialstring
specialstring
specialstring
|
|--23.34%-- specialstring
| specialstring
| specialstring
--34.56%-- [...]
|
--- specialstring
specialstring
|
|--12.34%-- specialstring
| |
| |--100.00%-- specialstring
| | specialstring
| --0.00%-- [...]
--23.34%-- [...]
谢谢:)
答案 0 :(得分:2)
我要说的是“天人”。必须有另一种格式可以生成数据。
如果你想解析这个... Parslet就像map / reduce algorythm一样。 您是第一次通过(解析)并不是为了给您最终输出,只是为了从源文档中捕获所需的所有信息。
一旦存储在树中,您就可以对其进行转换以获得所需的输出。
所以...我会编写一个解析器,将每个空白区域记录为节点,并匹配所需的文本和百分比。我会将空白节点分组为“缩进”节点。
然后我会使用转换来用节点数替换空白节点来计算缩进。
记住:Parslet生成标准的ruby哈希。然后,您可以编写任何您喜欢的代码来理解这棵树。
解析器只是将文本文件转换为您可以操作的数据结构。
但重申一下。我认为“天人”有正确的答案..而是以机器可读的方式生成数据。
<强>更新强>
有关替代方法,您可以查看:Indentation sensitive parser using Parslet in Ruby?