我需要将.pdf,.doc和.txt文件等文档存储到MaprDB中。我在Hbase中看到了一个例子,它以二进制形式存储文件,并在Hue中作为文件检索,但我不确定它是如何实现的。知道如何将文档存储在MaprDB中?
答案 0 :(得分:2)
首先,我不知道Maprdb是否正在使用Cloudera。但是我有一些经验,在hbase中将hbase中的许多类型的对象存储为如下所述的字节数组。
在hbase或任何其他db中存储的最原始方式是字节数组。 see my answer
您可以使用Apache commons lang API以下面的方式执行此操作。这可能是最佳选择,适用于所有对象,包括图像/音频/视频等。
请使用您的任何文件的对象类型之一来测试此方法。
SerializationUtils.serialize
将返回字节。你可以插入。
import org.apache.commons.lang.SerializationUtils;
/**
* testSerializeAndDeserialize.
*
**/
public void testSerializeAndDeserialize throws Exception {
//serialize here
byte[] bytes = SerializationUtils.serialize("your object here which is of type f .pdf, .doc and .txt ");
// deserialize the same here and see you are getting back or not.
yourobjecttype objtypeofpdfortxtordoc = (yourobjecttype) SerializationUtils.deserialize(bytes);
}
另一个例子:
import java.io.FileInputStream;
import java.io.FileOutputStream;
import org.apache.commons.lang.SerializationUtils;
public class SerializationUtilsTrial {
public static void main(String[] args) {
try {
// File to serialize object to
String fileName = "testSerialization.ser";
// New file output stream for the file
FileOutputStream fos = new FileOutputStream(fileName);
// Serialize String
SerializationUtils.serialize("SERIALIZE THIS", fos);
fos.close();
// Open FileInputStream to the file
FileInputStream fis = new FileInputStream(fileName);
// Deserialize and cast into String
String ser = (String) SerializationUtils.deserialize(fis);
System.out.println(ser);
fis.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
如果您不想使用Apache commons lang提供的SerializationUtils
类,无论出于何种原因,您可以在下面看到pdf序列化和反序列化示例,以便您更好地理解它的冗长代码如果您使用SerializationUtils
,代码将会减少。
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.logging.Level;
import java.util.logging.Logger;
public class PdfSerializeAndDeserExample {
public static void main(String[] args) throws FileNotFoundException, IOException {
File file = new File("someFile.pdf");
FileInputStream fis = new FileInputStream(file);
//System.out.println(file.exists() + "!!");
//InputStream in = resource.openStream();
ByteArrayOutputStream bos = new ByteArrayOutputStream();
byte[] buf = new byte[1024];
try {
for (int readNum; (readNum = fis.read(buf)) != -1;) {
bos.write(buf, 0, readNum); //no doubt here is 0
//Writes len bytes from the specified byte array starting at offset off to this byte array output stream.
System.out.println("read " + readNum + " bytes,");
}
} catch (IOException ex) {
Logger.getLogger(genJpeg.class.getName()).log(Level.SEVERE, null, ex);
}
byte[] bytes = bos.toByteArray();
scan
你get
得到你的pdf字节,并使用下面的代码再次制作相同的文件,在这种情况下是someFile.pdf。 File someFile = new File("someFile.pdf");
FileOutputStream fos = new FileOutputStream(someFile);
fos.write(bytes);
fos.flush();
fos.close();
}
}
yourcolumnasBytearray
是你的doc文件,例如pdf ..在上面的例子中转换为字节数组(使用SerializationUtils.serialize
)...
/**
* Put (or insert) a row
*/
@Override
public void addRecord(final String tableName, final String rowKey, final String family, final String qualifier,
final byte[] yourcolumnasBytearray) throws Exception {
try {
final HTableInterface table = HBaseConnection.getHTable(getTable(tableName));
final Put put = new Put(Bytes.toBytes(rowKey));
put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier), yourcolumnasBytearray);
table.put(put);
LOG.info("INSERT record " + rowKey + " to table " + tableName + " OK.");
} catch (final IOException e) {
printstackTrace(e);
}