Question

我有一个文本文件，其中包含以下几个文本块：

Module Resistor_SMD:R_0402_1005Metric (layer B.Cu) (tedit 5B301BBD) (tstamp 5CC0A687)
    (at 120.316179 97.92138 90)
    (descr "Resistor SMD 0402 (1005 Metric), square (rectangular) end terminal, IPC_7351 nominal, (Body size source: http://www.tortai-tech.com/upload/download/2011102023233369053.pdf), generated with kicad-footprint-generator")
    (tags resistor)
    (path /610532D4)
    (attr smd)
    (fp_text reference R59 (at 0 1.17 90) (layer B.SilkS)

我要提取以下内容： 120.316179, 97.92138 90 and R59

并将其存储在某处...

然后，我要提取订单项集合，并根据前两个数字的值扔掉一些。...它们是XY坐标。

然后，将其写入列表。

我该如何使用正则表达式呢？我正在加载文件并尝试遵循here，但由于添加了熊猫库，我迷路了。

Answer 1

IMO，您不需要re即可完成此任务。您可以遍历文件的各行，并根据'(at '和'fp_text reference'之类的信号字符串，填写所有电阻器数据的列表列表，例如：

with open('textfile.txt') as f:
    data = []
    row = []
    for line in f:
        if row:
            if '(fp_text ref' in line.strip():
                row.append(line.strip().split()[2])
                data.append(row)
                row = []
        else:
            if '(at ' in line.strip():
                row = line.strip()[:-1].split()[1:4]

print(data)

# [['120.316179', '97.92138', '90', 'R59']]

如果要从此数据中获取熊猫数据框：

import pandas as pd 
df = pd.DataFrame(data, columns=['x', 'y', 'z', 'R'])
print(df)

#             x         y   z    R                            
# 0  120.316179  97.92138  90  R59

Answer 2

This RegEx可能会帮助您捕获三个所需的字符串：

([\d]+\.[\d]{5,}|R[0-9]+)

使用 | （OR）连接两个简单的模式：
- 左侧的（[\d]+\.[\d]{5,}）会检查所需的浮点数，并在浮点部分的边界上加上5+，然后
- 右侧的一个（R[0-9]+）具有左侧的 R 边界。
您可以根据需要随意更改这些边界，并使用 $ 1 调用捕获的输出并进行编码。
如有必要，可以使用 \ 转义特定于语言的元字符，例如。。

使用python

2 个答案: