由于创建了额外的列,导致Python拆分问题

时间:2018-07-09 18:14:57

标签: sql-server python-3.x split strip data-cleaning

这是我正在研究的项目。 使用python,我导入了一个大的CSV文件,该文件包含约2000行,然后将其转换为列表。

下面是我用来创建列表的脚本

data=[] #Will put the data in here

with open('output.csv', "r") as file: # open the file
for data_row in file: 
#get data one row at a time split up the row into columns, stripping 
whitespace from each one and store it in 'data'
data.append( [x.strip() for x in data_row.split(",")] )

我对该项目的主要目标是使用python脚本(例如使用pandas)直接在SQL Server中创建表 df = pd.DataFrame(mydata,columns = ['column1','column2',...]

但是,我在拆分时遇到了一个问题,因为有些字段包含“ Doe,John”格式的人的名字,这会创建额外的列,因此当我在pd.DataFrame中插入列名时会抛出错误AssertionError:传递了39列,传递的数据有44列”

有人可以帮我解决这个问题吗?非常感谢!

0 个答案:

没有答案