Question

我正在抓取一些数据。数据点之一是锦标赛奖池。数据中有许多不同的货币。我想从每个值中提取金额和货币，以便可以使用Google将其转换为基础货币。但是，自从我使用正则表达式已经有一段时间了，所以至少可以说我很生疏。数据的可能格式如下：

$534
$22,136.20
3,200,000 Ft HUF
12,500 kr DKK
50,000 kr SEK
$3,800 AUD
$10,000 NZD
€4,500 EUR
¥100,000 CNY
₹7,000,000 INR
R$39,000 BRL

下面是我想到的第一个正则表达式。

[0-9,.]+(.+)[A-Z]{3}

但是显然不能捕获金额和货币，所以我更改了它。

([0-9,.]+).+([A-Z]{3})

但是，我无法弄清楚这个正则表达式存在的问题。

发生了什么事？如何更改表达式以使其起作用？

我在这里：([0-9,.]+)((?:.+)([A-Z]{3}))?

Answer 1

这应该有效：

([0-9,.]+).*?([A-Z]{3})?$

我做了一些更改：

如果您不了解“懒惰”在这种情况下的含义，请参见this post。

Answer 2

对于示例数据，您可以使用一个可选的非捕获组来匹配货币前的空格和字符：

([0-9,.]+)(?:(?: [A-Za-z]+)? ([A-Z]{3}))?

这将匹配

(捕获组
- [0-9,.]+匹配字符类中列出内容的1倍以上
)关闭捕获组
(?:非捕获组
- (?: [A-Za-z]+ )?可选组，用于匹配一个空格，是a-zA-Z和空格的1倍以上
- ([A-Z]{3})捕获3个大写字符
)?关闭非捕获组并将其设置为可选