我有一个CSV文件,其中包含以下列name.age,salary,experience
当我将其转换为序列文件时,数据究竟发生了什么? 序列文件将如何显示?
并且onc序列文件被转换为向量它是什么样子的 我想了解当我们从输入数据创建序列和向量时会发生什么
此致 Chhaya Vishwakarma
答案 0 :(得分:1)
CSVData文件(文字):
vijay@master:~$ hadoop fs -cat /user/vijay/datatext/csvData.csv
vijay,24,22000,2
rami,20,30000,3
kumar,23,400000,11
CSVData SequenceFile(原始表单):
vijay@master:~$ hadoop fs -cat /user/vijay/datasequence/p*
SEQ!org.apache.hadoop.io.LongWritableorg.apache.hadoop.io.Text▒▒s▒!▒(▒9ŻW▒+fvijay,24,22000,rami,20,30000,umar,23,400000,11vijay
(它看起来如何?) - 序列文件有一个标题,其中包含有关键/值类名称,版本,文件格式,文件元数据和同步标记的信息,以表示标题的结尾。标题后面是构成键/值对的记录及其各自的长度。
(究竟发生了什么?) - 请阅读以下链接,以填补所有疑虑。
段落积分:https://thinkbiganalytics.com/hadoop-sequence-files-and-a-use-case/
CSVData SequenceFile(可读形式):
vijay@master:~$ hadoop fs -text /user/vijay/datasequence/p*
0 vijay,24,22000,2
17 rami,20,30000,3
33 kumar,23,400000,11