迭代列表中包含8526个项目,导致索引超出范围错误

时间:2016-01-28 19:57:31

标签: python list loops iteration

Python新手在这里。我一直在研究一个小脚本,它将XML转换为CSV,用于工作中的项目。 XML数据中有406个元素已被解析到内存中,每个元素有21个索引字段,它们是该元素的子元素,总共有8,526个索引字段。

在给定元素的21个索引字段中,我想拉出第0,第1,第2,第3,第5,第6,第7和第8项。

我已经创建了一个循环(类似于下面的代码)来执行以下操作:

i = 0
files = 406
docrange = 8526
iterstep = 21
pad = '","'
for docs in range(i, docrange):
    string1 = str('"'+indexfields[iterstep])+pad)
    string2 = str(indexfields[iterstep+1])+pad)
    string3 = str(indexfields[iterstep+2])+pad)
    string5 = str(indexfields[iterstep+3])+pad)
    string6 = str(indexfields[iterstep+5])+pad)
    string7 = str(indexfields[iterstep+6])+pad)
    string8 = str(indexfields[iterstep+7])+pad)
    string9 = str(indexfields[iterstep+8])+pad)
    strung = string1+string2+string3+string5+string6+string7+string8+string9
    print strung

    iterstep = (iterstep + 21)
    i = (i + 1)

当我进入这个循环时,我收到错误:

Traceback (most recent call last): 
    File "Path/To/My/script.py", line 55, in <module> 
string1 = (str(indexfields[iterstep])) IndexError: list index out of range

从我收集的内容来看,我不认为我正在修改我正在迭代的列表,因为Stack Overflow上处理此错误的其他线程似乎表明了这一点。

虽然我知道有更优雅的方式来编写上面的代码,但我希望将XML数据快速转换为CSV,并且需要完成这项工作。

Edit1:这可能不适合它,但这里是一个Files.xml的示例,索引信息是从中提取的。还有另一个XML文件与Files.xml一起使用,如果需要,我也可以发布它。

<?xml version="1.0" encoding="utf-8"?>
<ArrayOfFile xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<File>
  <ExtendedProperties />
  <ID>7514</ID>
  <SyncFlag>Edit</SyncFlag>
  <CustomSort />
  <ViewerContext>None</ViewerContext>
  <ProjectID>1</ProjectID>
  <BoxID>0</BoxID>
  <FileID>7514</FileID>
  <FilePtr>0</FilePtr>
  <Status>Active</Status>
  <KeyValue />
  <KeyVisualValue />
  <Field>
    <string>Some words that I would like to pull1</string>
    <string>Some words that I would like to pull2</string>
    <string>Some words that I would like to pull3</string>
    <string>Some words that I would like to pull4</string>
    <string>Nonsense</string>
    <string>Some words that I would like to pull5</string>
    <string>Some words that I would like to pull6</string>
    <string>Some words that I would like to pull7</string>
    <string>Some words that I would like to pull8</string>
    <string>Some words that I would like to pull9</string>
    <string>Nonsense</string>
    <string>Nonsense</string>
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
  </Field>
  <Notes />
  <DateStarted>2015-07-16T11:02:00</DateStarted>
  <DateChanged>2015-12-09T14:46:58.7335221-05:00</DateChanged>
  <ChangedBy>1</ChangedBy>
  <Destruction>1990-01-01T01:00:00</Destruction>
  <LabelPrinted>1990-01-01T01:00:00</LabelPrinted>
  <SaveStyle>NewFile</SaveStyle>
  <SaveNotesOnly>false</SaveNotesOnly>
  <FileVerifyLevels>0</FileVerifyLevels>
  <RemoteID>1</RemoteID>
</File>

这是来自Documents.xml文件的snippit:

<?xml version="1.0" encoding="utf-8"?>
<ArrayOfDocument xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<Document>
  <ID>262601</ID>
  <SyncFlag>Edit</SyncFlag>
  <CustomSort />
  <ViewerContext>None</ViewerContext>
  <FileID>1647</FileID>
  <RelProjectID>0</RelProjectID>
  <ArchiveID>0</ArchiveID>
  <Archive />
  <DocumentID>262601</DocumentID>
  <Status>Active</Status>
  <Separator>Some words to pull</Separator>
  <Divider>Some words to pull</Divider>
</Document>

EDIT2: 我们发现了一些很好的响应,我发现原始错误的原因是由于迭代值最初设置为21而不是0。 我需要更多关于这个软件的指导,打开一个新线程会更好吗?

4 个答案:

答案 0 :(得分:4)

编辑:您的主要关注点应该是学习如何读取堆栈跟踪。这告诉你的是,在某个循环之后,你正在尝试访问尚未填充的索引。尝试打印索引,看看会发生什么。

对于今后的工作,我建议使用XML Parsing来完成此操作。

你应该动态地处理这个转换,而不是总是假设有x个元素。

Python内置了模块来解析XML并使用Xpath。 https://docs.python.org/2/library/xml.etree.elementtree.html

这使您能够分析单个节点,访问属性等。

答案 1 :(得分:2)

我相信你的问题是你说你每行有406行和21个元素,总计8562个元素。这意味着您需要遍历行数。如果你将iterstep增加21,8562次,那么iterstep将等于179802,这是你拥有的元素数量的21倍。因此,您需要将范围更改为range(i,files)。当您可能需要从零开始

时,您也从21开始执行iterstep
files = 406
docrange = 8526
iterstep = 0
pad = '","'
for i in range(0, files):
    string1 = str('"'+indexfields[iterstep])+pad)
    string2 = str(indexfields[iterstep+1])+pad)
    string3 = str(indexfields[iterstep+2])+pad)
    string5 = str(indexfields[iterstep+3])+pad)
    string6 = str(indexfields[iterstep+5])+pad)
    string7 = str(indexfields[iterstep+6])+pad)
    string8 = str(indexfields[iterstep+7])+pad)
    string9 = str(indexfields[iterstep+8])+pad)
    strung = string1+string2+string3+string5+string6+string7+string8+string9
    print strung

    iterstep += 21

或更好的方法是删除iterstep并且每次只使用xranges步骤参数和步骤

files = 406
docrange = 8526
pad = '","'
for i in range(0, docrange, 21):
    string1 = str('"'+indexfields[i])+pad)
    string2 = str(indexfields[i+1])+pad)
    string3 = str(indexfields[i+2])+pad)
    string5 = str(indexfields[i+3])+pad)
    string6 = str(indexfields[i+5])+pad)
    string7 = str(indexfields[i+6])+pad)
    string8 = str(indexfields[i+7])+pad)
    string9 = str(indexfields[i+8])+pad)
    strung = string1+string2+string3+string5+string6+string7+string8+string9
    print strung

答案 2 :(得分:1)

问题肯定是由iterstep引起的,你是从21开始并在每次迭代时将它递增21。也许您应该将其保持为0,并且必须对i执行某些操作(因为在循环中更改它不会影响range)或完全删除它。

答案 3 :(得分:1)

您似乎已将所有数据都读入一个名为indexfields的单个大型平面阵列。

如果是这样,这对您来说可能是一个糟糕的呼吁 - 您丢弃了一些信息。

无论如何,您现在需要以21个项目为一组来遍历索引字段。这很容易做到:

for i in range(0, len(indexfields), 21):

此时,您的i等于某个数字是21的倍数。您将使用已经确定的索引偏移量提取您关心的字段子集:

    offsets = (0,1,2,3,5,6,7,8)
    fields = [indexfields[i+j] for j in offsets]

此时,您可以打印这些值或将它们输入到用于CSV文件操作的众多,多个库中的一个库中。这是一个简单的print-to-stdout版本:

    q = '"'
    q_q = '","'
    csv_line = q + q_q.join(fields) + q
    print(csv_line)

清理它:

# Fake up some data
indexfields = []

fake="ABCDEFGHIJKLMNOPQRSTUVWXYZ"
for i in range(0,406):
    for j in range(0,21):
        indexfields.append(str(i) + "-" + fake[j])

offsets = (0,1,2,3,5,6,7,8)
q = '"'
q_q = '","'

for i in range(0, len(indexfields), 21):
    fields = [indexfields[i+j] for j in offsets]

    csv_line = q + q_q.join(fields) + q
    print(csv_line)