我在Azure Data-lake商店文件夹位置上有一组文件。是否有任何简单的power-shell命令来获取文件中的记录数?我想在文件项上使用Get-AzureRmDataLakeStoreItemContent命令作为文件大小(以千兆字节为单位)来执行此操作。在大文件上使用此命令会产生以下错误。
错误: Get-AzureRmDataLakeStoreItemContent:要预览的剩余数据大于1048576字节。请指定一个 length或使用Force参数预览整个文件。要预览的文件的长度: 749319688
答案 0 :(得分:0)
Azure数据湖在文件/文件夹级别运行。记录的概念实际上取决于应用程序如何解释它。例如,在一种情况下,文件可以具有CSV行,或者在另一种情况下具有一组JSON对象。在某些情况下,文件包含二进制数据因此,在文件系统级别无法获取记录数。
获取此信息的最佳方法是在Azure Data Lake Analytics中提交诸如USQL作业之类的作业。该脚本非常简单:一个EXTRACT语句,后跟COUNT聚合和OUTPUT语句。
如果您更喜欢Spark或Hadoop,请参阅StackOverflow问题:Finding total number of lines in hdfs distributed file using command line