CSV文件中的序列和向量

时间:2014-05-23 10:38:21

标签: hadoop mahout

我有一个CSV文件,其中包含以下列name.age,salary,experience

当我将其转换为序列文件时,数据究竟发生了什么? 序列文件将如何显示?

并且onc序列文件被转换为向量它是什么样子的 我想了解当我们从输入数据创建序列和向量时会发生什么

此致 Chhaya Vishwakarma

1 个答案:

答案 0 :(得分:1)

CSVData文件(文字):

vijay@master:~$ hadoop fs -cat /user/vijay/datatext/csvData.csv
vijay,24,22000,2
rami,20,30000,3
kumar,23,400000,11

CSVData SequenceFile(原始表单):

vijay@master:~$ hadoop fs -cat /user/vijay/datasequence/p*
SEQ!org.apache.hadoop.io.LongWritableorg.apache.hadoop.io.Text▒▒s▒!▒(▒9ŻW▒+fvijay,24,22000,rami,20,30000,umar,23,400000,11vijay

(它看起来如何?) - 序列文件有一个标题,其中包含有关键/值类名称,版本,文件格式,文件元数据和同步标记的信息,以表示标题的结尾。标题后面是构成键/值对的记录及其各自的长度。

(究竟发生了什么?) - 请阅读以下链接,以填补所有疑虑。

段落积分:https://thinkbiganalytics.com/hadoop-sequence-files-and-a-use-case/

CSVData SequenceFile(可读形式):

vijay@master:~$ hadoop fs -text /user/vijay/datasequence/p*
0       vijay,24,22000,2
17      rami,20,30000,3
33      kumar,23,400000,11