如何使用TikaOnDotNet库从大型excel文件中提取文本?

时间:2016-08-02 06:52:48

标签: c# .net excel apache-tika

我有很少的excel文件,我想使用TikaOnDotNet从这些文件中提取文本。这个库是工作文件,其中包含大小小于160MB的所有文件,但是当我使用较大的文件时,它显示我这个错误:

TikaOnDotNet.TextExtraction.dll中发生未处理的“TikaOnDotNet.TextExtraction.TextExtractionException”类型异常 附加信息:从文件中提取文本失败

以下是我正在使用的代码:

var a=new TextExtractor().Extract(filename).Text;

有没有人有同样的解决方案?

1 个答案:

答案 0 :(得分:0)

试试这些:

  • 将NuGets更新为最新版本
  • 在使用Tika方法的同一项目中安装NuGets

我也有Tika的问题:我创建了使用Tika的方法,NuGets被设置为我在主项目中引用的外部PCL。这导致了错误,我仍然没有找到解决方案。