Question

我试图将每个字符组中的一些文本解析成碎片在我的情况下，字符组将是＆＃34; *（（＆＃34;和＆＃34;））＆＃34 ;

import re
file = "Name* ((Bla Bla Bla (Bla Bla) A40 & A41)) Name2* ((Bla Bla Bla (Bla Bla) A42 & A43)) Name3* ((Bla Bla Bla (Bla Bla) A44 & A45)) Name4* ((Bla Bla Bla (Bla Bla) A46 & A47)) Name5* ((Bla Bla Bla (Bla Bla) A48 & A49)) Name6* ((Bla Bla Bla (Bla Bla) A50 & A51)) Name7* ((Bla Bla Bla (Bla Bla) A452 & A53)) Name8* ((Bla Bla Bla (Bla Bla) A54 & A55)) Name9* ((Bla Bla Bla (Bla Bla) A56 & A57)) Name10* ((Bla Bla Bla (Bla Bla) A58 & A59)) Name11* ((Bla Bla Bla (Bla Bla) A60 & A61)) Name12* ((Bla Bla Bla (Bla Bla) A62 & A63)) Name13* ((Bla Bla Bla (Bla Bla) A64 & A65)) Name14* ((Bla Bla Bla (Bla Bla) A66 & A67)) Name14* ((Bla Bla Bla (Bla Bla) A68 & A69))"
parse = re.split('[* ((][)) ]', file)
print parse

我的结果又回来了：

['Name', '((Bla Bla Bla (Bla Bla) A40 & A41)) Name2', '((Bla Bla Bla (Bla Bla) A42 & A43)) Name3', '((Bla Bla Bla (Bla Bla) A44 & A45)) Name4', '((Bla Bla Bla (Bla Bla) A46 & A47)) Name5', '((Bla Bla Bla (Bla Bla) A48 & A49)) Name6', '((Bla Bla Bla (Bla Bla) A50 & A51)) Name7', '((Bla Bla Bla (Bla Bla) A452 & A53)) Name8', '((Bla Bla Bla (Bla Bla) A54 & A55)) Name9', '((Bla Bla Bla (Bla Bla) A56 & A57)) Name10', '((Bla Bla Bla (Bla Bla) A58 & A59)) Name11', '((Bla Bla Bla (Bla Bla) A60 & A61)) Name12', '((Bla Bla Bla (Bla Bla) A62 & A63)) Name13', '((Bla Bla Bla (Bla Bla) A64 & A65)) Name14', '((Bla Bla Bla (Bla Bla) A66 & A67)) Name14', '((Bla Bla Bla (Bla Bla) A68 & A69))']

它似乎只是将文本拆分为＆＃34; *＆＃34;。我似乎无法弄清楚如何设置多个多字符分隔符。有人有什么建议吗？感谢。

Answer 1

我尝试使用正则表达式

import re
file = "your....string.... content" #your string goes here.

parse = re.split(r"\*|\)\)|\(\(", file)

输出：

[＆＃39;姓名＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A40＆amp; A41＆＃39;，＆＃39; Name2＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A42＆amp; A43＆＃39;，＆＃39;名称3＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A44＆amp; A45＆＃39;，＆＃39; Name4＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A46＆amp; A47＆＃39;，＆＃39; Name5＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A48＆amp; A49＆＃39;，＆＃39;名称6＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A50＆amp; A51＆＃39;，＆＃39;名称7＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A452＆amp; A53＆＃39;，＆＃39;名称8＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A54＆amp; A55＆＃39;，＆＃39;名称9＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A56＆amp; A57＆＃39;，＆＃39;名称10＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A58＆amp; A59＆＃39;，＆＃39;名称11＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A60＆amp; A61＆＃39;，＆＃39;名称12＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A62＆amp; A63＆＃39;，＆＃39;名称13＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A64＆amp; A65＆＃39;，＆＃39;名称14＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A66＆amp; A67＆＃39;，＆＃39;名称14＆＃39;，＆＃39; ＆＃39;，＆＃39; Bla Bla Bla（Bla Bla）A68＆amp; A69＆＃39;，＆＃39;＆＃39;]

Answer 2

我想分享我最终使用的解决方案，以防其他任何人受益。那里有正则表达式的混合物，但我使用findall而不是split。现在我已经走到这一步了，我不得不考虑更多地控制输出。数据被转储到3个字段（From_Node，To_Node，Link）。我需要第一个“To_Node”的值成为下一行“From_Node”的值，依此类推。想象一下沿着一条线，点A到B，然后点B到C，然后点C到D等....由于我的知识有限，我甚至不知道从哪里开始查找这个解决方案。有什么想法吗？

import re, arcpy

# Local variables:
Table1 = "D:\Database1.mdb\\Table1"
RAW_Data = "D:\Database1.mdb\RAW_Data"

#Create Cursors and Insert Rows
insertcursor = arcpy.da.InsertCursor(Table1, ["From_Node", "To_Node", "Link"])
with arcpy.da.SearchCursor(RAW_Data, ["Field1", "Field1", "Field1"]) as searchcursor:
    try: 
        for row in searchcursor:
            listFrom_Node = re.findall('\w+(?=\*\s*)', row[0]) #From Node
            print listFrom_Node
            print "From Node List Success"
            listTo_Node = re.findall('\w+(?=\*\s*)', row[1]) #To Node
            print listTo_Node
            print "To Node List Success"
            listLink = re.findall('\(\((.*?)\)\)', row[2]) #Link descriptions
            print listLink
            print "Link List Success"
            for n,Value in enumerate(listFrom_Node):
                insertcursor.insertRow((listFrom_Node[n], listTo_Node[n], listLink[n]))
    except:
        print ('Empty Cursor')

Answer 3

你可以对字符串使用拆分功能吗？这和一些列表理解能够完成这项工作。

In[31]: [i for s in [s.split(')) ') for s in file.split('* ((')] for i in s]
Out[31]: 
['Name',
 'Bla Bla Bla (Bla Bla) A40 & A41',
 'Name2',
 'Bla Bla Bla (Bla Bla) A42 & A43',
 'Name3',
 'Bla Bla Bla (Bla Bla) A44 & A45',
 'Name4',
 'Bla Bla Bla (Bla Bla) A46 & A47',
 'Name5',
 'Bla Bla Bla (Bla Bla) A48 & A49',
 'Name6',
 'Bla Bla Bla (Bla Bla) A50 & A51',
 'Name7',
 'Bla Bla Bla (Bla Bla) A452 & A53',
 'Name8',
 'Bla Bla Bla (Bla Bla) A54 & A55',
 'Name9',
 'Bla Bla Bla (Bla Bla) A56 & A57',
 'Name10',
 'Bla Bla Bla (Bla Bla) A58 & A59',
 'Name11',
 'Bla Bla Bla (Bla Bla) A60 & A61',
 'Name12',
 'Bla Bla Bla (Bla Bla) A62 & A63',
 'Name13',
 'Bla Bla Bla (Bla Bla) A64 & A65',
 'Name14',
 'Bla Bla Bla (Bla Bla) A66 & A67',
 'Name14',
 'Bla Bla Bla (Bla Bla) A68 & A69))']

Python - 按字符组填充的文本

3 个答案: