我有以下问题: 当他们在一张桌子里时,Tika将两个单词合并成一个单词。 下面是两个两个表:
John Smith
Jane White
在这种情况下,它将合并SmithJane。
我正在使用的代码如下:
var parser = new AutoDetectParser();
var context = new ParseContext();
context.set(typeof(Parser), parser);
var handler = new BodyContentHandler(10 * 1024 * 1024);
var metadata = new Metadata();
var stream = TikaInputStream.get(File.ReadAllBytes(@"c:\Temp\file.pdf")); //attachmentFile is the file as an array of bytes
try
{
parser.parse(stream, handler, metadata, context);
}
finally
{
stream.close();
}
var test = handler.toString();