TikaOnDotNet库中是否可以从大型文件中提取数据而不会影响性能? 在高端计算机上从52MB XLSX文件中提取数据大约需要2-3分钟。
我有一个需要从不同文件类型提取数据的场景。 对于.txt文件,如果文件大小大于10MB,我将使用文件流将其分成10MB的块并按长度进行划分,但对于XLSX,PDF等将不起作用。
我的问题是,TikaOnDotNet库是否能够自行处理此问题,或者我们只需要使用Interop或OpenXMLSDK将XLSX文件拆分为多个块并将其传递给TikaOnDotNet库?
欢迎任何帮助。
谢谢。
样本文件: https://drive.google.com/file/d/1UMZ_jnRpaiaNyuY8ecmnwUV9nbB5mX8V/view?usp=sharing
示例代码:
using TikaOnDotNet.TextExtraction;
public static string extractDatafromTikaOnDotNet(string filepath)
{
try
{
TextExtractor textExtractor = new TextExtractor();
string result = textExtractor.Extract(filepath).Text;
return result;
}
catch (Exception ex)
{
throw ex;
}
}