我正在运行在此网站http://www.norstad.org/matrix-multiply/index.html找到的MapReduce Matrix Multiplication.java程序。
(源代码可以在网站的末尾看到)
当我执行它时,它说输入不是SequenceFile
我的输入文件最近是inputA.txt
,看起来像这样
A,0,1,1.0
A,0,2,2.0
A,0,3,3.0
A,0,4,4.0
A,1,0,5.0
A,1,1,6.0
A,1,2,7.0
A,1,3,8.0
A,1,4,9.0
格式为:MatrixName,row,col,element
当然,它没有用。
我真的想运行这个源代码,因为它的算法。那么在这种情况下如何生成正确的SequenceFile呢? 我可以从我已经拥有的.txt文件中生成它吗?
答案 0 :(得分:1)
查看TestMatrixMultiply
中包含的测试代码(在您提供的链接中)应该可以为您提供一些帮助。
我已拉出相关位以帮助您入门。此(未经测试的)代码应创建两个序列文件(请参阅testIdentity()
)。
您可以在writeMatrix
方法中看到它如何创建SequenceFile以及所使用的结构,我假设它与实际的mapreduce作业相同。
您可以扩展此代码以读取文本文件,正确填充2D矩阵数组,然后编写序列文件。
public class TestMatrixMultiply {
private static final String DATA_DIR_PATH = "/tmp/MatrixMultiply";
private static final String INPUT_PATH_A = DATA_DIR_PATH + "/A";
private static final String INPUT_OATH_B = DATA_DIR_PATH + "/B";
private static Configuration conf = new Configuration();
private static FileSystem fs;
public static void writeMatrix (int[][] matrix,
int rowDim, int colDim, String pathStr) throws IOException {
Path path = new Path(pathStr);
SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path,
MatrixMultiply.IndexPair.class, IntWritable.class,
SequenceFile.CompressionType.NONE);
MatrixMultiply.IndexPair indexPair = new MatrixMultiply.IndexPair();
IntWritable el = new IntWritable();
for (int i = 0; i < rowDim; i++) {
for (int j = 0; j < colDim; j++) {
int v = matrix[i][j];
if (v != 0) {
indexPair.index1 = i;
indexPair.index2 = j;
el.set(v);
writer.append(indexPair, el);
}
}
}
writer.close();
}
public static void main (String[] args) throws Exception {
new GenericOptionsParser(conf, args);
fs = FileSystem.get(conf);
fs.mkdirs(new Path(DATA_DIR_PATH));
A = new int[][] { {1,0}, {0,1}};
B = new int[][] { {1,0}, {0,1}};
writeMatrix(A, 2, 2, INPUT_PATH_A);
writeMatrix(B, 2, 2, INPUT_OATH_B);
}
}
您应该注意,此方法适用于少量数据。一旦你开始达到任何类型的比例,你可能想要编写一个mapreduce作业,它将你的文本文件作为输入并写出一个序列文件。