在尝试将数据复制到文本到csv的旁边时,python获取错误:

时间:2017-06-04 19:06:29

标签: python csv web-scraping text-extraction

我正在尝试从文本文件中复制使用:分隔的数据值。  具有以下形式的数据的文本文件:

  

我有50多个文本文件包含此格式的数据:

Type: Assume 
Number: 123456
Name: Assume
Phone Number: 000-000
Email Address: any@gmail.com
Mailing Address: Assume

我正在尝试从多个文本文件中以csv格式获取此格式的数据值:

Type     Number  Name     Phone      email         Mailing Address
Assume   123456  Assume   000-000   any@gmail.com  Assume

以下是代码:

import re
import csv

file_h = open("out.csv","a")
csv_writer = csv.writer(file_h)



def writeHeading(file_content):
    list_of_headings = []
    for row in file_content:
        key = str(row.split(":")[0]).strip()
        list_of_headings.append(key)

    csv_writer.writerow(tuple(list_of_headings))

def writeContents(file_content):
    list_of_data = ['Number']
    for row in file_content:
        value = str(row.split(":")[1]).strip()
        list_of_data.append(value)
    csv_writer.writerow(tuple(list_of_data))

def convert_txt_csv(filename):
    file_content = open(filename,"r").readlines()
    return file_content

list_of_files = ["10002.txt","10003.txt","10004.txt"]

# for writing heading once
file_content = convert_txt_csv(list_of_files[0])
writeHeading(file_content)

# for writing contents
for file in list_of_files:
    file_content = convert_txt_csv(file)
    writeContents(file_content)

file_h.close()

以下是以下错误:

Traceback (most recent call last):
  File "Magnet.py", line 37, in <module>
    writeContents(file_content)
  File "Magnet.py", line 20, in writeContents
    value = str(row.split(":")[1]).strip()
IndexError: list index out of range

1 个答案:

答案 0 :(得分:1)

您的代码可能在第一个文件的末尾遇到一个空行,或者在其中没有:的任何行,所以当您尝试将其拆分为键/值时,它会抱怨因为它没有得到预期长度的列表。你可以通过检查当前行上是否有冒号来轻松解决这个问题,即:

for row in file_content:
    if ":" not in row:  # or you can do the split and check len() of the result
        continue
    key = row.split(":")[0].strip()
    list_of_headings.append(key)

但是......虽然您尝试的任务看起来非常简单,但请记住,您的方法假设所有文件都相同,具有相同数量的key: value组合并且顺序相同。< / p>

通过将解析后的数据存储在dict中,然后使用csv.DictWriter()进行出价,您会感觉更好。