我的数据源采用CSV和文本文件格式,我想运行Hadoop Map-reduce作业。
如何将数据源转换为Hadoop序列文件格式并存储在HDFS中。
答案 0 :(得分:0)
将它们转换为Sequence Files的最简单方法是使用默认的Mapper和Reducer运行mapreduce。您需要将OutputFormatClass指定为SequenceFileOutputFormat。这是驱动程序代码的相关部分。
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.1/jquery.min.js"></script>
<ul class="nav-tabs">
<li class="active" data-id="1">Painting</li>
<li data-id="2">Tile Floors</li>
<!-- Etc -->
<!-- Etc -->
<!-- Etc -->
</ul>
<div class="rokSprocket">
<div class="_1 visible painting">
<p>Content</p>
</div>
<div class="_2 hidden tileFloors">
<p>Different Content</p>
</div>
<!-- Etc -->
<!-- Etc -->
<!-- Etc -->
</div>