使用TikaOnDotNet从巨大的文件中提取数据

时间:2019-02-12 09:55:05

标签: c# .net xlsx apache-tika chunks

TikaOnDotNet库中是否可以从大型文件中提取数据而不会影响性能? 在高端计算机上从52MB XLSX文件中提取数据大约需要2-3分钟。

我有一个需要从不同文件类型提取数据的场景。 对于.txt文件,如果文件大小大于10MB,我将使用文件流将其分成10MB的块并按长度进行划分,但对于XLSX,PDF等将不起作用。

我的问题是,TikaOnDotNet库是否能够自行处理此问题,或者我们只需要使用Interop或OpenXMLSDK将XLSX文件拆分为多个块并将其传递给TikaOnDotNet库?

欢迎任何帮助。

谢谢。

样本文件: https://drive.google.com/file/d/1UMZ_jnRpaiaNyuY8ecmnwUV9nbB5mX8V/view?usp=sharing

示例代码:

using TikaOnDotNet.TextExtraction;
public static string extractDatafromTikaOnDotNet(string filepath)
{
     try
     {
          TextExtractor textExtractor = new TextExtractor();
          string result = textExtractor.Extract(filepath).Text;
          return result;
     }
     catch (Exception ex)
     {
         throw ex;
     }
 }

0 个答案:

没有答案