使用正则表达式解析文本文件

时间:2013-09-30 19:35:38

标签: c# .net regex

我试图解析一些js文件(ExtJS)并找到该文件中类所使用的所有依赖项。

示例js文件如下所示:

Ext.define('Pandora.controller.Station', {
    extend: 'Ext.app.Controller',

    refs: [{
        ref: 'stationsList',
        selector: 'stationslist'
    }],

    stores: ['Stations', 'RecentSongs'],
    ...

我想得的是Ext.app.Controller

使用我的代码,我能够获得包含extend

的所有行
public void ReadAndFilter(string path)
{
    using (var reader = new StreamReader(path))
    {
        string line;
        while ((line = reader.ReadLine()) != null)
        {
            if (line.Contains("extend"))
            {
                listBox2.Items.Add(line);
            }
        }
    }
}

但这也会返回评论和其他不必要的东西。 我的想法是使用RegEx查找所有字符串。

我的问题是,有时行在前面和后面都有一些空格 以下是可以在js文件中找到的一些示例:

extend          : 'Ext.AbstractPlugin',
extend: 'Ext.util.Observable',
@extends Sch.feature.AbstractTimeSpan
extend      : "Sch.feature.AbstractTimeSpan",
extend              : "Sch.plugin.Lines",
extend : "Sch.util.DragTracker",

对此运行RegEx应返回:

Ext.AbstractPlugin
Ext.util.Observable
Sch.feature.AbstractTimeSpan
Sch.plugin.Lines
Sch.util.DragTracker

以下是我的尝试:extend[ ]*:[ ]*['"][a-zA-Z.]*['"],我已对其进行了测试here,但我只想在引号或双引号之间加入(这也可以验证吗?这样我们就可以了排除那些带有第一个引号和第二个双引号的人。)

RegEx不是最快的,但我不知道我怎么能做到这一点。
欢迎任何建议。

3 个答案:

答案 0 :(得分:4)

您可以简单地使用捕获组;你在括号之间包装所需的部分:

extend[ ]*:[ ]*['"]([a-zA-Z.]*)['"]

您可以通过.Groups[1].Value

访问它们

编辑:根据要求:

extend *: *('|")(?<inside>[a-zA-Z.]*)\1

使用此功能,您可以使用.Groups["inside"].Value

访问捕获的组

答案 1 :(得分:4)

extend\s*:\s?("|')(.*)\1

\1是对("|')中括号所捕获的内容的引用,因此它会强制引号正确匹配。

在这种情况下,匹配的部分(您想要的)会在Groups[2].Value

中结束

另外,只是一个风格建议:不要使用[ ]*来匹配空格,那些分组括号在空时看起来太混乱了。一个简单的\s*更易于阅读和理解。

答案 2 :(得分:2)

您只缺少一个捕获组。请注意[a-zA-Z.]*

周围的parens

extend([ ]*):[ ]*['"]([a-zA-Z.]*)['"]

要实现此尝试:

var result = from Match match in Regex.Matches(line, "extend([ ]*):[ ]*['"]([a-zA-Z.]*)['"]") 
         select match.ToString();