Question

我正在编写一个Python脚本来解析我在geojson数据中的一些数据文件。

现在，我有许多行，每行以一年开始，然后有12个温度读数（每月一个），例如：

1983   5.2  -0.4   5.7   9.8  13.7  18.1  22.1  19.8  15.1  10.2   4.8   1.1 
1984   1.9   0.5   2.8   8.9  13.7  15.0  16.9  19.2  13.5  11.3   4.6   0.7 
1985  -5.0  -2.8   4.0   8.8  15.6  15.2  19.0  18.4  14.3   9.9   2.0   4.4 
1986   0.4  -6.4   3.8   7.4  15.9  17.4  19.4  18.2  12.3  10.3   7.1   2.5

等。我试图理想地写一个正则表达式，以便年份将进入第一个捕获组，然后所有温度将进入下一组，或者它们将进入单个组。在第一种情况下，我将根据空格进行拆分，然后单独解析它们。在第二部分中，我将逐一解析每个捕获组。

我现在已经尝试了这个并且它没有工作（按比例缩小示例）：

import re
reYear = re.compile("([0-9][0-9][0-9][0-9])([\s]*[\-]*[0-9]+[\s]*)*")
line = "1983   5.2  -0.4   5.7   9.8  13.7  18.1  22.1  19.8  15.1  10.2   4.8   1.1"
data = reYear.search(line)
print("GROUP 0: %s" % data.group(0))
print("GROUP 1: %s" % data.group(1))

这是我得到的输出：

GROUP 0: 1983   5
GROUP 1: 1983

我认为这可能有效，因为first（）组表示捕获4位数，第二组表示捕获一些减号（或不符号），某些数字，然后是一些空格的实例。但是，我真的不知道自己在做什么。感谢任何帮助。

谢谢！

Answer 1

我建议使用。*来匹配该行的其余部分。此外，\ d {4}是匹配四位数的最简单方法：

import re

# Regex: (four digits) whitespace (the rest of the line)
reYear = re.compile("(\d{4})\s+(.*)")
line = "1983   5.2  -0.4   5.7   9.8  13.7  18.1  22.1  19.8  15.1  10.2   4.8   1.1"
data = reYear.search(line)

# Group 0 is everything
print("GROUP 0: %s" % data.group(0))

print("GROUP 1: %s" % data.group(1))
print("GROUP 2: %s" % data.group(2))

输出：

GROUP 0: 1983   5.2  -0.4   5.7   9.8  13.7  18.1  22.1  19.8  15.1  10.2   4.8   1.1
GROUP 1: 1983
GROUP 2: 5.2  -0.4   5.7   9.8  13.7  18.1  22.1  19.8  15.1  10.2   4.8   1.1

说完这一切之后，你可以将整行划分为空白并将第一个元素作为年份，而不是使用正则表达式。

正则表达式将行数据分成年份/温度读数

1 个答案: