我正在使用Apache Tika从我创建的Apache Hadoop RCfile示例文件中提取文本(使用Hadoop的GZip压缩),看起来Tika的mime类型检测对此文件无法正常工作。任何想法如何构建支持(通过XML配置,或构建一个检测器)来正确解析这种格式?
java -jar tika-app-1.14.jar /dev/sample_data/sample_gen_hadoop_rcfile
返回
<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
<meta name="resourceName" content="sample_gen_hadoop_rcfile"/>
<meta name="Content-Length" content="20224466"/>
<meta name="Content-Type" content="application/octet-stream"/>
<title/>
</head>
我创建的RCfile是gzip格式 - 下面的
转储 :sample_data $ xxd sample_gen_hadoop_rcfile |head -n 50
00000000: 5243 4601 0127 6f72 672e 6170 6163 6865 RCF..'org.apache
00000010: 2e68 6164 6f6f 702e 696f 2e63 6f6d 7072 .hadoop.io.compr
00000020: 6573 732e 477a 6970 436f 6465 6300 0000 ess.GzipCodec...
00000030: 011c 6869 7665 2e69 6f2e 7263 6669 6c65 ..hive.io.rcfile
00000040: 2e63 6f6c 756d 6e2e 6e75 6d62 6572 0231 .column.number.1