从与UWP一起使用的常见文档格式(主要是rtf,doc,docx,pdf,epub,mobi)中提取文本的最佳方法是什么?

时间:2016-10-15 22:10:18

标签: c# uwp .net-4.5 document windows-10-universal

我想在我的应用程序中实现对这些类型文件的支持,但为此我需要能够从这些文件类型中提取原始文本的东西。

我正在寻找一个不需要任何额外库的解决方案,或者是一体化库/ NuGet包。我看了GemBox.Document,但它似乎没有与UWP项目合作。

对此最好的选择是什么?

1 个答案:

答案 0 :(得分:1)

  

我正在寻找一个不需要任何额外库的解决方案,或者是一体化库/ NuGet包。

没有这样的包裹。

在标准UWP应用程序中,我们可以使用Rich edit box读取.rtf文件,本文档中的代码示例显示如何在{编辑,加载和保存RTF格式(.rtf)文件{1}}。

对于.doc,.docx,又名。 MS Word文档,特别是2007年以后的版本,它使用Open-XML-SDK,目前它不支持UWP平台。

对于.pdf文档,您可以参考@Franklin Chen的主题:[UWP]PDF Viewing on a Windows Universal App

对于epub文件,它是一个ZIP存档文件,要解析此文件,您可以参考线程:[WP8.1][C#] How can i read an EPub file in c# on Windows Phone!?

对于mobi文件,抱歉我目前无法找到任何有用的开发信息,我现在只能建议将其转换为带有免费在线服务的pdf文件。

但总之,Open-XML-SDK目前还不支持UWP平台。无法找到标准UWP应用程序的解决方案或包。您可以尝试在应用程序中找到此类Web服务并实现此服务,也可以使用可以读取所有这些格式的文档的商业库。