将pdf转换为html然后转换为textarea

时间:2017-08-21 23:15:50

标签: php jquery pdf

这是我想要实现的目标。

我有一个(php)网页,用户可以上传pdf文档。该网页有两列。一旦文件上传完成,使用jQuery / ajax和php

  • 我需要将pdf文档转换为div_left中的语义html。
  • 我需要让用户能够拖动部分html内容并将内容传输到textarea(新内容)。

pdf文档在格式和内容布局方面不是标准。因此,必须使用该工具从左侧选择内容到右侧的textareas。在流程工具中将有助于标准化内容。

In [19]: cmd1._actions[1].help = 'cmd1 foo'
In [20]: cmd2.print_help()
usage: ipython3 cmd2 [-h] [--foo FOO]

optional arguments:
  -h, --help  show this help message and exit
  --foo FOO   cmd1 foo
In [21]: fooObj.help
Out[21]: 'cmd1 foo'

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:0)

这并不容易,但要实现这一点,您必须使用转换器,将您的pdf转换为可读格式,您可以使用它。

我在几年前做了类似的事情,我的方法是使用pdftotext(http://www.tutorialspoint.com/unix_commands/pdftotext.htm)将pdf转换为html文件并使用此html文件来剪切所需的内容。

你必须尝试,没有机会从你可以开始的地方制作一个片段,因为你没有提供有关pdf本身的信息。

更新:程序

  1. 使用pdftotext(-htmlmeta flag)将您的文件转换为htmlfile
  2. 使用jquery ajax调用加载转换后的文件,然后您可以随意使用jquery剪切并随意放置,或者甚至附加拖放等新功能。
  3. 使用-htmlmeta标志查看pdttotext - 您将看到生成的文件是可读的html文件。