我编写了一个脚本,该脚本获取大量Excel数据电子表格,并删除不需要的列,特定列中包含零值的行,然后保存到csv。我坚持的那篇文章是我还试图删除缺少单元格的行。我试图这样做的方式是:
for each_row in row_list :
if not all(map(len, each_row)) :
continue
else :
UICData.append(row_list)
但是当我收到错误时,这并没有正常工作:
文件 " /Users/kenmarold/PycharmProjects/sweetCrude/Work/sweetCrude.py" ;,
线 56,在PrepareRawData中 如果不是全部(map(len,each_row)):
TypeError:' float'对象不可迭代
我不确定如何解决这个问题,前进的方向是什么?我还附上了下面的完整脚本。
#!/usr/bin/env python3
import os
import sqlite3
import csv
import unicodecsv
from datetime import date
from xlrd import open_workbook, xldate_as_tuple
from xlwt import Workbook
orig_xls = 'data/all_uic_wells_jun_2016.xls'
temp_xls = 'data/temp.xls'
new_csv = 'data/gh_ready_uic_well_data.csv'
temp_csv = 'data/temp.csv'
input_worksheet_index = 0 # XLS Sheet Number
output_workbook = Workbook()
output_worksheet = output_workbook.add_sheet('Sweet Crude')
lat_col_index = 13
long_col_index = 14
#### SELECT AND FORMAT DATA
def PrepareRawData(inputFile, tempXLSFile, tempCSVFile, outputFile):
# 0 = API# # 7 = Approval Date
# 1 = Operator # 13 = Latitude
# 2 = Operator ID # 14 = Longitude
# 3 = Well Type # 15 = Zone
keep_columns = [0, 1, 2, 3, 7, 13, 14, 15]
with open_workbook(inputFile) as rawUICData:
UICSheet = rawUICData.sheet_by_index(input_worksheet_index)
UICData = []
for each_row_index in range(1, UICSheet.nrows - 1, 1):
row_list = []
lat_num = UICSheet.cell_value(each_row_index, lat_col_index) # Get Lat Values
long_num = UICSheet.cell_value(each_row_index, long_col_index) # Get Long Values
if lat_num != 0.0 and long_num != 0.0: # Find Zero Lat/Long Values
for each_column_index in keep_columns:
cell_value = UICSheet.cell_value(each_row_index, each_column_index)
cell_type = UICSheet.cell_type(each_row_index, each_column_index)
if cell_type == 3:
date_cell = xldate_as_tuple(cell_value, rawUICData.datemode)
date_cell = date(*date_cell[0:3]).strftime('%m/%d/%Y')
row_list.append(date_cell)
else:
row_list.append(cell_value)
for each_row in row_list :
if not all(map(len, each_row)) :
continue
else :
UICData.append(row_list)
# CreateDB(row_list) # Send row data to Database
for each_list_index, output_list in enumerate(UICData):
for each_element_index, element in enumerate(output_list):
output_worksheet.write(each_list_index, each_element_index, element)
output_workbook.save(tempXLSFile)
#### RUN XLS-CSV CONVERSION
workbook = open_workbook(tempXLSFile)
sheet = workbook.sheet_by_index(input_worksheet_index)
fh = open(outputFile, 'wb')
csv_out = unicodecsv.writer(fh, encoding = 'utf-8')
for each_row_number in range(sheet.nrows) :
csv_out.writerow(sheet.row_values(each_row_number))
fh.close()
#### KILL TEMP FILES
filesToRemove = [tempXLSFile]
for each_file in filesToRemove:
os.remove(each_file)
print("Raw Data Conversion Ready for Grasshopper")
# ---------------------------------------------------
PrepareRawData(orig_xls, temp_xls, temp_csv, new_csv)
# ---------------------------------------------------
答案 0 :(得分:0)
这是一个肮脏的补丁。
for each_row in row_list :
if not isinstance(each_row, list):
each_row = [each_row]
if not any(map(len, each_row)) :
continue
UICData.append(row_list)
编辑:如果任何/ map / len仍然提出它,那么我会尝试不同的路线来检查它是否为空。
此外,我不确定您为什么要附加整个row_list而不是当前行。我将其更改为附加each_row。
选项1
for each_row in row_list:
if not each_row:
continue
UICData.append(each_row)
1选项
keep_data = [arow in row_list if arow] # Or w/e logic. This will be faster.
UICData.append(keep_data)
答案 1 :(得分:0)
您的row_list
包含一组值,例如:
[1.01, 75, 3.56, ...]
当您致电for each_row in row_list:
时,您会为循环的每次迭代为each_row
分配 float 值。
然后尝试执行此操作:
if not all(map(len, each_row)):
Python的map
函数需要一个列表作为第二个参数,并尝试迭代它以将函数len
应用于列表中的每个项目。你不能迭代浮动。
我不完全确定你在这里要做什么,但是如果你想要检查row_list
中没有任何项目是None
还是空字符串,那么你可以做:
if None not in row_list and '' not in row_list:
UICData.append(row_list)
答案 2 :(得分:0)
您的整体对象似乎是将一张Excel XLS文件的所有行中的选定列复制到CSV文件。对于某些“有效”的定义,每个输出行必须只包含有效的单元格。
如您所见,使用map()
不是一个好主意;它仅适用于所有字段都是文本的情况。您应该根据数据类型,特别是在单个列上应用测试。
验证行中的项目后,您就可以输出数据。您选择了一个路径(1)构建所有输出行的列表(2)使用xlwt写入临时XLS文件(3)使用xlrd
读取临时文件并unicodecsv
写入一个CSV文件。请考虑避免这一切;而只是使用unicodecsv.writer.writerow(row_list)