如何计算文件hdfs的行数?

时间:2015-11-11 19:30:24

标签: hadoop hdfs wc

我正在尝试计算<?php if ( $_POST['password'] == '091u233j12j3' ) { $_SESSION['loggedIn'] = true; header("Location: " . $_POST['$pagetarget']); die(); } ?> <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> (...) / hdfs中文件中的行数。在某些情况下,我需要HIVE中整个表格的行数,有些情况下我想要HIVE中文件中的行数。

我尝试过HIVE之类的内容,但这只会提供!hadoop fs -count /<path to file(s)/,然后是FILE COUNT。来自here

如何获得行数?

2 个答案:

答案 0 :(得分:2)

如果您想知道总行数,可以查看地图输入记录&#39;计数器。这将为您提供给定输入中的总行数(这是目录中的所有文件)。

如果您需要给定文件中的行数(我仍然不知道您为什么需要它),您需要为已读取给定文件的映射器获取相同的计数器。这可能有点棘手,但它是可行的。

如果您正在使用Hadoop而不是Yarn我建议您使用Yarn's REST API,它非常易于使用并且非常方便快速完成此类&#34;快速查询&#34;在M / R处理的某些部分。

答案 1 :(得分:1)

Hive不会让你在一个文件的基础上创建表。 请记住,在Hive中创建表时,可以在文件夹的顶部创建表。 (这允许我们添加更多文件)

只能在hive中将一个文件读入表中。

  

将数据[local] inpath'/ input_folder/input_file.txt'加载到表dest_table;

计算该表中的行数

  

从dest_table中选择count(*);

下面的链接有一些有用的信息:

How to load a text file into a Hive table stored as sequence files