从多个格式化字符串中提取分数和2或4位数年份

时间:2015-04-17 20:43:12

标签: python regex string

我有130,000多个字符串,其中包含3/4",1"等等的测量值以及5648或222等房屋号码,然后根据用户的用户数量为02,92或2004年。感觉就像在那天打字。我也有随意的,以便让它变得更有趣。

我需要的是:第一个测量值,即3/4"或2"和02年或1997年。我尝试了多次分裂和替换,但我似乎没有走得太远。我将大部分测量结果用"分开。你能帮忙的话,我会很高兴。有人建议使用正则表达式,但我从未使用过这些。

以下是一些例子:

3/4"-6235\PE-03, 
1"-8018\ \PE-00, 
3/4"-    \ \PE-2004, 
1"-11769\ \74\COPSET, 
PE-85, 
1"-BLDG 1, 
COMM CABLE

这是我目前所拥有的。

for featureToTotal in featuresToTotal:
                    id = id + 1
                    # Get each Water Type Time Total 
                    try:                          
                        ValueOne = featureToTotal[1]
                        tmpvalue = ValueOne.replace("\\", "")
                        tmpvalue = tmpvalue.replace("-", " ")
                        tmpvalue = tmpvalue.replace("'", " ")
                        newValue = tmpvalue.decode('string_escape')

                        splitOne = newValue.split('\\')[0]
                        Split2 = splitOne.split('-')[0]                            
                        trysplit = Split2.split('"')[0]
                        #Test for Number                             
                        try:
                            num = trysplit[:1]
                            float(num)
                            strval = str(trysplit)
                            trysplit = strval
                            #featureToTotal[4] = strval
                            #arcpy.AddMessage(str(trysplit)) 
                            #featuresToTotal.updateRow(featureToTotal)
                        except:
                            errstrr = "yep"
                            #print "Nope" + ValueOne +  " " + trysplit

                        buildqury = "INSERT INTO Annos VALUES(" + str(id) + ", ''" + newValue + "'', ''" + trysplit+ "'', ''" + YearTest +  "'')"
                        cur.execute(buildqury)
                    except:
                        strerr = sys.exc_value.message
                        print "Error Splitting  " 

1 个答案:

答案 0 :(得分:1)

如果没有更多信息,这是我能为您做的最好的事情:

items = re.findall(r'(\d+/?\d*)".*?PE-(\d+)', string)