标签: hadoop-streaming
我现在正在使用Python来运行我的程序,我想估计它们的确切时间复杂性。
但由于它使用流,因为它直接读取HDFS文件系统的输入,我对其复杂性感到困惑。
例如:如果使用本地内存来存储完整的输入文件,我的一个程序的复杂度为O(n2)。但是在通过流式传输之后,它实际上比O(n2)的原始复杂性花费的时间少得多。我想要它的确切估计,即在直接从HDFS文件系统读取输入的情况下减少了多少时间?
请帮助。