我目前正在尝试匹配eeprom转储文本文件的模式,以找到某个地址,然后在搜索中遇到4个步骤。我已经尝试了以下代码来查找模式
regexp_list = ('A1 B2')
line = open("dump.txt", 'r').read()
pattern = re.compile(regexp_list)
matches = re.findall(pattern,line)
for match in matches:
print(match)
这将扫描转储中的A1 B2
并显示(如果找到)。我需要在搜索标准中添加更多此类地址,例如'C1 B2', 'D1 F1'
。
我尝试将regexp_list
设置为列表而不是元组,但这没有用。
这是问题之一。接下来,当我进行搜索时,我想遍历4个地方,然后从那里读取地址(见下文)。
输入:
0120 86 1B 00 A1 B2 FF 15 A0 05 C2 D1 E4 00 25 04 00
在这里,当搜索找到A1 B2
模式时,我想移动4个位置,即从转储中保存C2 D1 E4
中的数据。
预期输出:
C2 D1 E4
我希望解释清楚。
#感谢@kcorlidy
这是我删除第一列中的地址所必须输入的最后一段代码。
newtxt = (text.split("A0 05")[1].split()[4:][:5])
for i in newtxt:
if len(i) > 2:
newtxt.remove(i)
所以完整的代码看起来像
import re
text = open('dump.txt').read()
regex = r"(A1\s+B2)(\s+\w+){4}((\s+\w{2}(\s\w{4})?){3})"
for ele in re.findall(regex,text,re.MULTILINE):
print(" ".join([ok for ok in ele[2].split() if len(ok) == 2]))
print(text.split("A1 B2")[1].split()[4:][:5])
#selects the next 5 elements in the array including the address in 1st col
newtxt = (text.split("A1 B2")[1].split()[4:][:5])
for i in newtxt:
if len(i) > 2:
newtxt.remove(i)
输入:
0120 86 1B 00 00 C1 FF 15 00 00 A1 B2 00 00 00 00 C2
0130 D1 E4 00 00 FF 04 01 54 00 EB 00 54 89 B8 00 00
输出:
C2 0130 D1 E4 00
C2 D1 E4 00
答案 0 :(得分:1)
使用正则表达式可以提取文本,但是您也可以通过拆分文本来完成文本。
正则表达式:
(A1\s+B2)
字符串以A1
+ one or more space
+ B2
(\s+\w+){4}
移动4位((\s+\w+(\s+\w{4})?){3})
提取3组字符串,该组中可能有4个不需要的字符。然后将它们组合成一个。拆分:
注意:如果文本很长或多行,请不要使用这种方式。
text.split("A1 B2")[1]
将文本分为两部分。之后是我们需要的.split()
除以空格并成为列表['FF', '15', 'A0', '05', 'C2', 'D1', 'E4', '00', '25', '04', '00']
[4:][:3]
移动4个位置,然后选择前三个位置测试代码:
import re
text = """0120 86 1B 00 A1 B2 FF 15 A0 05 C2 D1 E4 00 25 04 00
0120 86 1B 00 00 C1 FF 15 00 00 A1 B2 00 00 00 00 C2
0130 D1 E4 00 00 FF 04 01 54 00 EB 00 54 89 B8 00 00 """
regex = r"(A1\s+B2)(\s+\w+){4}((\s+\w{2}(\s\w{4})?){3})"
for ele in re.findall(regex,text,re.MULTILINE):
#remove the string we do not need, such as blankspace, 0123, \n
print(" ".join([ok for ok in ele[2].split() if len(ok) == 2]))
print( text.split("A1 B2")[1].split()[4:][:3] )
输出
C2 D1 E4
C2 D1 E4
['C2', 'D1', 'E4']