我正在尝试使用pandas
读取csv文件:
pd.read_csv(path, sep=";", quoting=3)
但是我收到了错误:
CParserError: Error tokenizing data. C error: Expected 8 fields in line 442069, saw 9
如何将此文件读入pandas
' DataFrame
?
在第一条评论后编辑:查看正确的行:
$ more +442065 contacts.txt
001-NM-001440;001-NM-368564;DIRECTEUR DE L'ETABLISSEMENT;DIRECTEUR DE L'ETABLISSEMENT;N;N;N;1
001-NPB-000649;001-NPB-440850; ;;N;N;N;0
001-NPB-000666;001-NPB-453937;DIRECTEUR DE L'ETABLISSEMENT;DIRECTEUR DE L'ETABLISSEMENT;N;N;N;0
001-NS-001217;001-CRM-469397;ASSISTANT(E);ASSISTANT(E);N;N;N;0
001-NS-001259;001-CRM-172012;ASSISTANT CHEF DE SECTEUR;;SECRETAIRE;N;N;N;0
001-MM-000288;001-MM-042968; ;;N;N;N;1
001-NYB-000005;286-INITOSM-33223; ;;N;N;N;0
001-NYB-000006;286-INITOSM-33230; ;;N;N;N;0
001-NYB-000011;001-NYB-312184;CONDUCTEUR DE TRAVAUX;CONDUCTEUR DE TRAVAUX;N;N;N;0
001-NYB-000011;001-NYB-1598768;CHEF DE CHANTIER;CHEF DE CHANTIER;N;N;N;0
001-NYB-000416;001-NYB-226960; ;;N;N;N;0
001-OLO-000171;286-INITOSM-33683;DIRECTEUR FINANCIER;DIRECTEUR FINANCIER;N;N;N;0
001-OLO-000192;001-OLO-033801;DIRECTEUR DE L'ETABLISSEMENT;DIRECTEUR DE L'ETABLISSEMENT;N;N;N;1
001-OLO-000259;286-INITOSM-33727;CONDUCTEUR DE TRAVAUX;CONDUCTEUR DE TRAVAUX;N;N;N;0
答案 0 :(得分:0)
当然,这不是一项简单的任务,但是Pandas可以轻松导入格式正确的正交数据。让你的输入进入一个可行的状态(通过一个句法分析器或一个完整性预先包装可疑的段到“......”等)& pandas
将其加载到 DataFrame
。
Expected: 8-fields
Present: 1. 001-NS-001259;
2. 001-CRM-172012;
3. ASSISTANT CHEF DE SECTEUR;
4. ;
5. SECRETAIRE;
6. N;
7. N;
8. N;
9. 0