使用PHP,Java从PDF或Word中提取数据

时间:2012-06-20 08:18:36

标签: mysql pdf ms-word

我需要帮助...... 特别是因为我不知道从哪里开始.. 我是一名IT本科生,与我的同学一起,现在正在公司接受在职培训。

情景: 该公司要求我们创建一个程序,生成报告并将其存储在数据库中。 将使用的数据库是MySQL。 至于使用什么语言,我们正在考虑VB.Net,Java,PHP。

该计划必须能够:

  1. 生成将通过电子邮件发送到办公室的报告
  2. 存储在数据库中
  3. 收集所有报告,整理这些报告
  4. 生成一份新报告,然后将其发送到其主办公室
  5. 然后将其存储在自己的数据库中......
  6. 现在, 我们仍在尝试确定程序的运行方式以及使用哪种语言能够从文本文件中读取和提取数据(可以是word文档或PDF文件)。

    该公司还希望该计划能够在线为未来扩展做好准备。

    现在,我们的问题是

    1. 有没有办法使用Java,PHP,VB从PDF或Word文件中提取数据,然后将其存储在MySQL数据库中?
      • 如果有,可以在不使用任何第三方软件的情况下实施吗?
      • 我们选择使用PDF或Word文件类型的原因是,该文件应该可以打印用于存档目的。
    2. 我们可以轻松使用哪种编程语言来解决上述问题?

      如果我提供的信息有点乱,我想道歉。一旦我们能够在本周与公司谈话,我将提供更多信息。

      如果我发布此内容的方式有问题,请原谅我。我只是尽我所能为您提供最好的信息。

2 个答案:

答案 0 :(得分:1)

我会回答Java,因为它是我在工作中使用的。

您可以轻松地从Word文件中提取文本或使用Apache POI

构建新的Word文件

至于PDF,iTextPDFBox都做得非常好。

答案 1 :(得分:0)

为什么不能使用第三方软件?如果可以的话,我会推荐像How to read PDF files using Java?这样的东西。

或者,阅读.doc文件:http://www.roseindia.net/tutorial/java/poi/readDocFile.html


无论如何,如果您不能使用第三方工具,为什么不阅读规范并弄清楚如何从PDF,DOC和DOCX文件中提取文本?

您可在此处找到DOC规范:http://msdn.microsoft.com/en-us/library/cc313118.aspx

您可以在此处找到PDF格式规范:http://www.adobe.com/devnet/pdf/pdf_reference.html

祝你好运!