Azure Power-shell命令用于获取Azure Data湖文件中的记录计数

时间:2017-06-28 13:24:37

标签: azure-powershell azure-data-lake

我在Azure Data-lake商店文件夹位置上有一组文件。是否有任何简单的power-shell命令来获取文件中的记录数?我想在文件项上使用Get-AzureRmDataLakeStoreItemContent命令作为文件大小(以千兆字节为单位)来执行此操作。在大文件上使用此命令会产生以下错误。

错误: Get-AzureRmDataLakeStoreItemContent:要预览的剩余数据大于1048576字节。请指定一个 length或使用Force参数预览整个文件。要预览的文件的长度: 749319688

1 个答案:

答案 0 :(得分:0)

Azure数据湖在文件/文件夹级别运行。记录的概念实际上取决于应用程序如何解释它。例如,在一种情况下,文件可以具有CSV行,或者在另一种情况下具有一组JSON对象。在某些情况下,文件包含二进制数据因此,在文件系统级别无法获取记录数。

获取此信息的最佳方法是在Azure Data Lake Analytics中提交诸如USQL作业之类的作业。该脚本非常简单:一个EXTRACT语句,后跟COUNT聚合和OUTPUT语句。

如果您更喜欢Spark或Hadoop,请参阅StackOverflow问题:Finding total number of lines in hdfs distributed file using command line