用于处理SQL文件中每一行的Ruby脚本

时间:2013-08-21 04:52:12

标签: mysql ruby regex gsub

我遇到了这个脚本的问题,我写了这个脚本来搜索.sql文件,并替换某些字符串内容。 E.g。

我想替换:

result of using this information. If you have any comments, queries or concerns with regards to the above information, 

Please <a href="#" target="_blank">Click Here</a>&nbsp;for different contact options.</p>
<h4>Stone properties:</h4>
<p><span>Scientific name of the stone:</span> Quartz/Silicon dioxide</p>
<p><span>Group:</span> Silicates &ndash; tektosilicates</p>

看起来像1000个数据库行:

Please <a href="#" target="_blank">Click Here</a>&nbsp;for different contact options.</p>
<ul class="navlistjdxcms">
<h4>Stone properties:</h4>
<li><span>Scientific name of the stone:</span> Quartz/Silicon dioxide</li>
<li><span>Group:</span> Silicates &ndash; tektosilicates</li>

我们的想法是匹配HTML标记,然后更改标记并添加CSS类,而不更改数据库文件中的其他文本/行。到目前为止,我已经想出了这个:

full_path_to_read = File.expand_path('C:\Users\huber\Desktop\RubyReg\cms_page.sql')
full_path_to_write = File.expand_path('C:\Users\huber\Desktop\RubyReg\cms_page2.sql')

stringla = ""

File.open(full_path_to_read).each_line { |s|

    contents = s
    xyz = contents.scan(/<p><span>.*?<\/span>.*?<\/p>/o)
    new_str = xyz.to_s.gsub('<p>', '<li>')
    new_str2 = new_str.gsub('</p>', '</li>')
    new_string = '<ul class="navlistjdxcms">' + new_str2 + '</ul>'
    m = s.gsub((/<p><span>.*?<\/span>.*?<\/p>/o), "#{new_string}")
    stringla += m
}

File.open(full_path_to_write, "w+") { |f| f.write(stringla) }

但似乎得到了

<ul class="navlistjdxcms"> 

的每场比赛显示
/<p><span>.*?<\/span>.*?<\/p>/o 

文件中有。

我尝试了很多Ruby正则表达式,并尝试直接连接到数据库以从那里改变数据库,但似乎无法弄明白。

我也尝试过使用:

m = s.gsub("#{xyz}", "#{new_string}")

以及其他许多变化都没有取得多大成功。我该怎么做才能用new_string替换整个匹配的段落而不仅仅是单个匹配的行?我也有一些感觉,我在这里做了Ruby字符串和类的其他错误。

我知道这是Ruby Regex 101,似乎无法弄明白。非常感谢提前。

1 个答案:

答案 0 :(得分:0)

您正在呼叫each_line,因此您一次只能获得一行。鉴于此,我相信你很清楚为什么你会看到你所看到的结果。

由于只有这样的1000个部分,您可以读取整个文件并使用捕获组进行全局替换,以获得所需的结果。

我无法让正则表达式在regexplanet上运行,regexplanet支持替换,但您可以看到匹配组在http://rubular.com/r/ahSEerTEnW处工作。完成匹配后,您可以使用文字结合匹配组引用(\ 1,\ 2,\ 3,\ 4)构建新的替换文本,如下所示:

\1
<ul class="navlistjdxcms">
\2
<li>\3</li>
<li>\4</li>