Question

TikaOnDotNet库中是否可以从大型文件中提取数据而不会影响性能？在高端计算机上从52MB XLSX文件中提取数据大约需要2-3分钟。

我有一个需要从不同文件类型提取数据的场景。对于.txt文件，如果文件大小大于10MB，我将使用文件流将其分成10MB的块并按长度进行划分，但对于XLSX，PDF等将不起作用。

我的问题是，TikaOnDotNet库是否能够自行处理此问题，或者我们只需要使用Interop或OpenXMLSDK将XLSX文件拆分为多个块并将其传递给TikaOnDotNet库？

欢迎任何帮助。

谢谢。

样本文件： https://drive.google.com/file/d/1UMZ_jnRpaiaNyuY8ecmnwUV9nbB5mX8V/view?usp=sharing

示例代码：

using TikaOnDotNet.TextExtraction;
public static string extractDatafromTikaOnDotNet(string filepath)
{
     try
     {
          TextExtractor textExtractor = new TextExtractor();
          string result = textExtractor.Extract(filepath).Text;
          return result;
     }
     catch (Exception ex)
     {
         throw ex;
     }
 }

使用TikaOnDotNet从巨大的文件中提取数据

0 个答案: