注意:我问这个问题,因为我发现我需要导入许多库来处理不同的文件,这会增加应用程序的大小。因为每次都会处理随机文件,所以在运行时在库之间切换会非常耗时。我只想要文件中的文字。
您好, 最近我开始研究一个需要读取不同类型文件的项目,如txt,pdf,word,excel等等。
我正在读书
Excel - 使用Microsoft excel interop
Pdf - 使用ITextSharp
txt - 使用基于流的类。
我的问题是,我是否可以使用基于流的类读取所有这些文件,因为它们将所有文件数据转换为字节?
或者我只能使用流类读取文本文件,因为文本文件只有纯文本而不是像其他文件类型(如pdf)那样的图像?
答案 0 :(得分:1)
您可以按字节读取所有这些文件,但
并非所有类型都以字节方式保存数据,就像您从* .txt文件中知道的那样,因为它们使用不同的格式来保存内容。
例如* .xlsx是一种开放的XML格式。该文件是一个包含大量XML文件的zpipped文件夹。 * .pdf也是一种特殊格式 - 从二进制文件中获取内容非常复杂。
阅读this answer以获取更多信息!