我必须为搜索工具编写代码,其中第一阶段是区分文件是excel还是PDF,然后执行代码的相应部分并从文件中读取数据。然后将数据用作搜索结果。对于excel部分我虽然使用SSIS包来读取数据并将其安排在不同的电子表格中以便结果...而对于PDF。我还在努力。但在每件事之前,我的代码都必须识别文件类型。
答案 0 :(得分:0)
对于许多类型的文件,文件的前几个字节是标识文件类型的“magic number”。
PDF文件例如以%PDF
或0x25 0x50 0x44 0x46开头。
Excel工作簿的幻数是apparently hidden 512个字节到文件中。
有库(libmagic
)和命令行工具(file
,mimetype
)可以帮助您查找文件类型,而无需了解复杂的详细信息。所有文件类型。