正则表达式从nuget包文件名中解析包名称和版本号

时间:2018-08-02 22:01:59

标签: regex

我有一个从nuget.org下载的nuget软件包目录。我正在尝试创建一个正则表达式,它将从文件名中解析出软件包名称和版本号。乍一看似乎并不困难;文件名具有清晰的模式:

{PackageName}。{VersionNumber} .nupkg

边缘情况使它具有挑战性。

  • 包裹名称可以包含破折号,下划线和数字
  • 包装名称中实际上可以包含无数个由点分隔的部分
  • 版本号由3-4组数字组成,各点之间分开
  • 版本号有时带有预发布标签(-alpha,-beta等)后缀

以下是nuget包文件名的示例列表:

knockoutjs.3.4.2.nupkg
log4net.2.0.8.nupkg
runtime.tizen.4.0.0-armel.microsoft.netcore.jit.2.0.0.nupkg
nuget.core.2.7.0-alpha.nupkg
microsoft.identitymodel.6.1.7600.16394.nupkg

我希望能够在“严重文本编辑器”中进行搜索/替换,其中搜索是包含两个组的正则表达式,一个用于程序包名称,一个用于版本号。输出应为“包:\ 1版本:\ 2”。使用上述5个软件包,输出应为:

Package: knockoutjs Version: 3.4.2
Package: log4net Version: 2.0.8
Package: runtime.tizen.4.0.0-armel.microsoft.netcore.jit Version: 2.0.0
Package: nuget.core Version: 2.7.0-alpha
Package: microsoft.identitymodel Version: 6.1.7600.16394

我想出的最接近的相对简洁的正则表达式是:

^([^\s]*)\.((?:[0-9]+\.){3,})nupkg$

...这将导致以下输出:

Package: knockoutjs Version: 3.4.2.
Package: log4net Version: 2.0.8.
Package: runtime.tizen.4.0.0-armel.microsoft.netcore.jit Version: 2.0.0.
nuget.core.2.7.0-alpha.nupkg
Package: microsoft.identitymodel.6 Version: 1.7600.16394.

它很好地处理了前三个,尽管我不希望该结尾的点。它甚至在第四个版本上都不匹配,并且第五个版本的第一部分版本号与软件包名称集中在一起。

Save the day!

2 个答案:

答案 0 :(得分:6)

我将您的表情稍作修改为:

^(.*?)\.((?:\.?[0-9]+){3,}(?:[-a-z]+)?)\.nupkg$

主要要点是,我将.移到了第一个非捕获组的数字前面,并且在第四字符串中为-alpha添加了一个可选的非捕获组。

替换为:

Package: \1 Version: \2

实时测试正则表达式here

答案 1 :(得分:1)

我认为此正则表达式将满足您的要求:

^(.*?)\.(?=(?:[0-9]+\.){2,}[0-9]+(?:-[a-z]+)?\.nupkg)(.*?)\.nupkg$

它使用正向查找来查找版本号,后跟(可能)后跟-[a-z]+形式的标签(例如-alpha),后跟\.nupkg。最后一部分防止它与第三个样本中的4.0.0-armel匹配。对于您的情况,用Package: $1 Version: $2代替,输出为:

Package: knockoutjs Version: 3.4.2
Package: log4net Version: 2.0.8
Package: runtime.tizen.4.0.0-armel.microsoft.netcore.jit Version: 2.0.0
Package: nuget.core Version: 2.7.0-alpha
Package: microsoft.identitymodel Version: 6.1.7600.16394

Demo