因此,我尝试将CSV文件加载到beeline中进行一些简单的分析并开始使用hadoop套件。我使用以下命令
CREATE EXTERNAL TABLE IF NOT EXISTS babies(
PseudoID_voorkeur INT,
OpnameID INT,
Specialisme VARCHAR(32),
Opnamecategorie VARCHAR(32),
OpnamecategorieOmschrijving VARCHAR(32),
OpnametypeID VARCHAR(32),
OpnametypeOmschrijving VARCHAR(32),
OpnamesubtypeID VARCHAR(32),
BehandelcategorieID_OPN VARCHAR(32),
BehandelcategorieOmschr_OPN VARCHAR(32),
BehandelcodeID VARCHAR(32),
BehandelcodeOmschrijving VARCHAR(32),
OpnamelocatieID VARCHAR(32),
OpnamelocatieOmschrijving VARCHAR(32),
AfdelingID_OPN VARCHAR(32),
AfdelingOmschrijving_OPN VARCHAR(32),
Behandelaar VARCHAR(32),
Aanmelder VARCHAR(32),
HerkomstID VARCHAR(32),
HerkomstOmschrijving VARCHAR(32),
Spoed_OPN INT,
ScreeningstatusID_OPN VARCHAR(32),
ScreeningstatusOmschrijving_OPN VARCHAR(32),
OpnamestatusID_OPN INT,
OpnamestatusOmschrijving_OPN VARCHAR(32),
EersteOpname_OPN INT,
GebruikOK_OPN INT,
GewensteTermijn_OPN VARCHAR(32),
Inschrijfdatum_OPN STRING,
Wachtlijstdatum_OPN STRING,
UitersteDatum_OPN STRING,
GeplandeOpnamedatum_OPN STRING,
GeplandeOpnametijd_OPN VARCHAR(32),
GeplandeOntslagdatum_OPN STRING,
GeplandeOntslagtijd_OPN VARCHAR(32),
Oproepdatum_OPN STRING,
Opnamedatum_OPN STRING,
Opnametijd_OPN VARCHAR(32),
Ontslagdatum_OPN STRING,
Ontslagtijd_OPN VARCHAR(32),
Annuleringsdatum_OPN STRING,
Factureringsdatum_OPN STRING,
Mutatiedatum_OPN STRING,
Mutatietijd_OPN VARCHAR(32),
VerwachteOpnameduur_OPN VARCHAR(32),
BestemmingID VARCHAR(32),
BestemmingOmschrijving VARCHAR(32),
PseudoID_voorkeur1 INT,
Aanvraagnummer INT,
Broncode VARCHAR(32),
Labgroep_naam VARCHAR(32),
Labgroep_code INT,
Afnamedatum STRING,
Afnametijd VARCHAR(32),
Afdeling VARCHAR(32),
Aanvrager VARCHAR(32),
Bepaling VARCHAR(32),
Bepaling_omschrijving VARCHAR(32),
Bepaling_materiaal VARCHAR(32),
Uitslag_waarde VARCHAR(32),
Uitslag_eenheid VARCHAR(32),
Uitslag_grenswaarde_onder DOUBLE,
Uitslag_grenswaarde_boven DOUBLE,
Uitslag_grenswaarde_vlag VARCHAR(32),
Uitslag_status VARCHAR(32),
Zenddatum STRING,
Zendtijd VARCHAR(32) )ROW FORMAT
DELIMITED FIELDS TERMINATED BY "/073"
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;
尝试这个时,我得到0行处理,看到代码剪切为输出:
Loading data to table default.babies
Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0]
OK
No rows affected (2.564 seconds)
有谁知道如何解决这个问题? CSV文件由以下分隔; (/ 073代表,行以换行符结束
答案 0 :(得分:0)
我可以看到该文件已存在于HDFS中,请在创建EXTERNAL TABLE时添加以下内容
LOCATION'/ user / cloudera / output / clean /'
在这种情况下不需要' LOAD DATA INPATH ',您可以直接查询该表。