当单词在表格内时,tika合并单词

时间:2016-02-11 18:37:43

标签: java c# apache-tika

我有以下问题: 当他们在一张桌子里时,Tika将两个单词合并成一个单词。 下面是两个两个表:

John        Smith

Jane        White

在这种情况下,它将合并SmithJane。

我正在使用的代码如下:

var parser = new AutoDetectParser();
            var context = new ParseContext();
            context.set(typeof(Parser), parser);
            var handler = new BodyContentHandler(10 * 1024 * 1024);
            var metadata = new Metadata();
            var stream = TikaInputStream.get(File.ReadAllBytes(@"c:\Temp\file.pdf")); //attachmentFile is the file as an array of bytes
            try
            {
                parser.parse(stream, handler, metadata, context);
            }
            finally
            {
                stream.close();
            }

            var test = handler.toString();

0 个答案:

没有答案