我有一个csv,它的行看起来像这样:
CNPJ Razao social Nome fantasia Endereco Cidade Estado Telefone Email Natureza juridica Atividade primaria Atividades secundarias Data de fundacao Situacao cadastral Socios e administradores Capital Social
02.787.185/0001-51 PEREIRA & POHREN LTDA - ME ESSENCIA FARMACIA DE MANIPULACAO R DR. LUIZ BASTOS DO PRADO, 1610, CENTRO GRAVATAI RS 5134881010 206-2 - SOCIEDADE EMPRESARIA LIMITADA 47.71-7-02 - Comércio varejista de produtos farmacêuticos, com manipulação de fórmulas 47.72-5-00 - Comércio varejista de cosméticos, produtos de perfumaria e de higiene pessoal|47.73-3-00 - Comércio varejista de artigos médicos e ortopédicos|47.71-7-04 - Comércio varejista de medicamentos veterinários 1998-10-09 ATIVA JOSE ANTONIO POHREN - Sócio-Administrador | SABRINA FRANCISCO PEREIRA - Sócio-Administrador
(请不要考虑标题格式,我无法在stackoverflow上调整它,如果我尝试调整它会变得一团糟)
每个列由制表符分隔。如果我在Excel上打开它,它工作正常,它看起来应该看起来如何,完全采用与上面例子相同的格式。
我使用此代码将其导入pandas:
df=pd.read_csv("/file.csv",sep='\t')
它读取文件,但有些行变得奇怪。例如,我发现了一行“R DR.LUIZ BASTOS DO PRADO”(你可以在上面的行中看到)。从技术上讲,它应该看起来与上面完全相同,但它看起来像这样:
CNPJ NaN
Razao social R DR LUIZ BASTOS DO PRADO
Nome fantasia NaN
Endereco NaN
Cidade NaN
Estado NaN
Telefone NaN
Email NaN
Natureza juridica NaN
Atividade primaria NaN
Atividades secundarias NaN
Data de fundacao NaN
Situacao cadastral NaN
Socios e administradores NaN
Capital Social NaN
Name: 291, dtype: object
我注意到,大熊猫似乎在没有完成所有列的行中感到困惑。
我也注意到这个“R DR.LUIZ BASTOS DO PRADO”应该在220行而不是291. 291应该是其他完全不同的东西。
我经常使用read_csv,我从未见过这种问题。 有谁知道这里会发生什么?