如何将.csv
文件中的列的字符串与已定义的数据类型列表进行匹配?
数据类型列表是:
Datatype = ["M", "B", "E", "A", "DF", "DW", "DL", "DT", "XTEXT", "MDEDATA"]
我想使用与列匹配的数据类型来查找字典中的值。
当我的代码在输入中找到类似DW1
的内容时(请参阅下面的示例),它会将DW:5
写入输出文件,当它找到DT34
时,它会写DT:7
}。这很好。
但问题是,每当我的代码遇到XTEXT
时,它首先与E: 2
匹配(因为E
中存在XTEXT
)而然后< / em>到下一行的XTEXT: 4105
。因此,输出文件中的相应行包含2
而不是4105
。 MDEDATA
已解决A:3
的问题类似。
我尝试使用正则表达式从输入文件中的相关列中删除数字(此行在上面的代码中已注释掉),如下所示:
if (Datatype[n] == re.sub('[1234567890\n]', '', line.split(";")[1])):
# ...
但遇到像X256DATA
这样的字符串会导致问题。
另一个问题是,当前生成的输出文件在第一列中显示abc;DW1
,在第二列显示5
,但我想在第一列显示abc
DW1
1}}在第二列和5
在第三列!
我该如何解决这些问题?任何帮助表示赞赏。
输入:
1 abc DW1
2 uz5 XTEXT
当前输出:
1 abc DW1 5
2 uz5 XTEXT 4105
输入:
abc;DW1\n
uz5;XTEXT\n
当前输出:
abc;DW1,5\n
uz5;XTEXT,4105\n
abc;DW1;5\n
uz5;XTEXT;4105\n
答案 0 :(得分:1)
正常字典查找完全匹配密钥。如果你得到多个匹配,那么你正在做其他事情。
>>> dict1 = {"M":1, "E":2, "A":3, "DF":4, "DW":5, "DL":6, "DT":7, "B":10, "XTEXT":4105, "MDEDATA":4110}
>>> dict1["XTEXT"]
4105
现在,根据更新后的问题,我发现您并不真正在寻找完全匹配,因为文件中的DW1
应与DW
中的Datatype
匹配。如果要检查字符串的开头是否匹配,请使用str.startswith
:
>>> "DW1".startswith("DW")
True
请注意,您必须在MDEDATA
之前检查M
以避免错误匹配。更一般地说,在较短的匹配之前检查较长的匹配。
答案 1 :(得分:1)
好的,这是一个基于您的代码的解决方案,应该适用于.txt
文件的格式:
import csv
# Define data_type / dict1 / dict2:
data_type = [
"M", "E", "B", "A", "DF", "DW", "DL", "DT", "PF", "PW", "PL", "PT",
"XTEXT", "MDEDATA", "X8DATA", "X16DATA", "X32DATA", "X64DATA",
"X128DATA", "X256DATA", "X512DATA", "X1024DATA", "X2048DATA",
"X4096DATA", "X8912DATA"]
dict1 = {
"M": 1, "E": 2, "A": 3, "DF": 4, "DW": 5, "DL": 6, "DT": 7, "PF": 8,
"PW": 9, "B": 10, "PL": 11, "PT": 12, "XTEXT": 4105, "MDEDATA": 4110,
"X8DATA": 10000, "X16DATA": 10001, "X32DATA": 10002, "X64DATA": 10003,
"X128DATA": 10004, "X256DATA": 10005, "X512DATA": 10006,
"X1024DATA": 10007, "X2048DATA": 10008, "X4096DATA": 10009,
"X8912DATA": 10010}
dict2 = {
"M": "B", "E": "B", "A": "B", "DF": ">f","PF": ">f", "DW": ">h",
"PW": ">h", "DL": ">l", "PL": ">l", "DT": "String", "PT": "String",
"B": "B", "XTEXT": "XTEXT", "MDEDATA": "MDEDATA", "X8DATA": "X8DATA",
"X16DATA": "X16DATA", "X32DATA": "X32DATA", "X64DATA": "X64DATA",
"X128DATA": "X128DATA", "X256DATA": "X256DATA", "X512DATA": "X512DATA",
"X1024DATA": "X1024DATA", "X2048DATA": "X2048DATA",
"X4096DATA": "X4096DATA", "X8912DATA": "X8912DATA"}
# Obtain writer for output file:
source = 'GSV.txt'
dest = open('GSV_copy.txt', 'w')
# Process data:
import re
source_lines = open(source).readlines()
for line in source_lines:
x = line.split(';')[1]
icon_lletter = ''
icon_lnummer = 0
python_letter = ''
for t in data_type:
if x.startswith(t): # Alternative using re: "if re.match(t, x)"
icon_lletter = t
break
if (icon_lletter not in dict1):
print "Entry (%s) in Dictionary1 is not available" % (icon_lletter)
else:
icon_lnummer = dict1[icon_lletter]
if (icon_lletter not in dict2):
print "Entry (%s) in Dictionary2 is not available" % (icon_lletter)
else:
python_letter = dict2[icon_lletter]
print "Converted the GVR datatype to python datatype is %s : %s : %s" \
% (icon_lletter, python_letter, icon_lnummer)
# Write line to output file:
dest.write(';'.join([line.strip('\n'), str(icon_lnummer) + '\n']))
dest.close()
请注意:
使用此解决方案,我正在尝试解决您的问题,同时保持接近原始实现。实现目标的方法有多种,可能更多是Pythonic / efficient / DRY。
由于您的输入和输出文件的列数不同且格式不同,因此您最终希望将代码转换为一组(一组)函数,不同(要检查的文件类型和列)作为参数。
修改强>
更多地处理这个问题我注意到dest
中的输出有点乱码。 (我之前没有那么远:))我已经改变了代码以产生你想要的确切输出。
另一个编辑(基于评论中的讨论):
关于将输入文件中的数据类型与已定义的data_type
列表进行匹配的主题:如果输入文件中的DT
始终具有您不具有的数字想要在开头或结尾考虑,你可以使用
re.sub('^[0-9]+', '', x)
或
re.sub('[0-9]+$', '', x)
删除它们。
答案 2 :(得分:0)
正如itsjeyd所建议的那样,
re.sub('^[0-9]+', '', x) or re.sub('[0-9]+$', '', x) does the trick!