这是一个错误还是设置在NewsKMeansClustering.java中,这是Mahout-in-Action第9章中给出的示例代码? 我正在针对序列文件目录运行此程序。输出错误消息如下:
线程“main”中的异常java.io.FileNotFoundException:文件newsClusters / clustersclusteredPoints / part-m-00000不存在。 at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:361) 在org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:245) at org.apache.hadoop.fs.FileSystem.getLength(FileSystem.java:676) 在org.apache.hadoop.io.SequenceFile $ Reader。(SequenceFile.java:1417) 在org.apache.hadoop.io.SequenceFile $ Reader。(SequenceFile.java:1412) 在mia.clustering.ch09.NewsKMeansClustering.main(NewsKMeansClustering.java:76)
我的开发环境的目录结构如下所示:
〜/ workspaceMahout1 / recommender / newsClusters%ls canopy-centroids clusters df-count dictionary.file-0 frequency.file-0 tfidf-vectors tf-vectors tokenized-documents wordcount 〜/ workspaceMahout1 / recommender / newsClusters / clusters / clusteredPoints%ls 部分-M-00000
之后,我更改了原始代码
new Path(clusterOutput+Cluster.CLUSTERED_POINTS_DIR +”/part-m-00000”), conf);
到
new Path(clusterOutput+”/clusteredPoints”+”/part-m-00000”), conf);
程序可以在不给出上述错误消息的情况下完成。我想知道原始代码中的错误还是有任何其他隐藏的问题?