Question

我在HDFS中有一个目录结构如下：

/dir1/dir2/dir3/2011/01/01/*
/dir1/dir2/dir3/2011/01/02/*
..

我已经完成以下操作以阅读所有文件以免我假设通过执行以下操作将读取所有文件：

val data = sc.textFile("/dir1/dir2/dir3/2011/**/**")

我想确保我已经阅读了2011年（所有月份和日期）下的所有数据，我认为通过检查RDD的大小会给我一个想法。

Answer 1

那将是count - docs here。

Answer 2

没有必要指向每个目录下的每个文件。相反，仅指向2011文件夹就足够了，如下所示：/dir1/dir2/dir3/2011/*。

顺便说一下，我想你可能会在这里混合一些概念。 RDD中的记录不代表您指向的HDFS目录中的文件数量。每个RDD都是一组记录，分为部分或全部单个文件的分区。

在分布式应用程序中，您可以拥有大量不同的RDD，每个文件一个。因此，直接在代码上获取RDD的记录，它将为您提供RDD精确分区中可用的行的数量。