我想在本地模式下运行整个mahout群集,意味着我的输入将是本地文件系统&输出也是本地文件系统。
以下是我在HDFS中运行mahout群集时遵循的步骤。
mahout seq2sparse -i / mahout / seqinput / part-m-00000 -o / mahout / o_seqsparse -ow
mahout canopy -i / mahout / o_seqsparse / tfidf-vectors -o / mahout / o_canopy -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -ow -t1 50 -t2 25
mahout kmeans -i / mahout / o_seqsparse / tfidf-vectors -o / mahout / o_kmeans -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -c / mahout / o_canopy / clusters-0-final -cd 0.1 - ow -x 20 -cl -k 10
现在,我希望在本地模式下使用此功能。
mahout seq2sparse -i< Local_file_system_input_file_path > -o< Local_file_system_output_file_path > -ow
mahout canopy -i< tfidf-vectors_file path > -o< o_canopy_output_path > -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -ow -t1 50 -t2 25
mahout kmeans -i< tfidf-vectors_file path > -o< o_kmeans_output_path > -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -c / mahout / o_canopy / clusters-0-final -cd 0.1 -ow -x 20 -cl -k 10
请帮我解决这个问题。 在此先感谢。