仅使用javascript从pdf文件中提取文本

时间:2012-12-13 23:30:16

标签: javascript pdf extract

如何在客户端和任何浏览器中仅使用javascript从pdf文件中提取数据?

2 个答案:

答案 0 :(得分:2)

pdf.js是一个JavaScript pdf阅读器: http://mozilla.github.com/pdf.js/

一些类似的项目:

如果您正在询问如何加载文件,可以通过ajax请求来完成,但您将无法直接读取文件内容。

答案 1 :(得分:-1)

你要问的几乎是不可能的。

PDF是一种重量级格式,针对高效复杂文档的显示进行了优化,而非进一步处理。 (事实上​​,PDF文档主要由字母形状和绝对位于页面上的其他图形组成。任何表示“文本段落”的数据都是标记PDF的可选功能。)

文本提取往往是(通常是昂贵的)PDF库的一个特征,据我所知,Javascript不存在这样的库。 Scribd和Google Docs这样做,但他们可能不分享如何,我猜他们是在服务器端这样做。

tl; dr: PDF,作为一种格式,对此非常糟糕。除非你的应用程序基本上是从PDF中提取文本,否则你最好花时间去弄清楚如何不去做。