解析pdf和word doc的最佳方法

时间:2017-10-23 14:05:38

标签: parsing

我想构建一个从pdf或word文档中获取信息的应用程序,并将其填充到我的数据库中。

我如何以最好的方式解决这个问题?请记住,只需要从pdf或word文档中提取某些信息。

2 个答案:

答案 0 :(得分:0)

有一些免费的开源库可以帮助您解析输入文件。

在基本概念中 - 不要从头开始构建解析器, 使用一些开源库来帮助你。

如果你想说一下你试图编写代码,那可能有所帮助:

例如对于您可以找到的PDF:

https://www.pdfparser.org/(对于php)

https://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C(对于C#)

等等。

对于DOC \ DOCX,几乎一样。

答案 1 :(得分:0)

要解析PDF,我知道两个选择:

pdftotext

检查pdf2text

OCR

尝试tesseract