应用错误收集

时间：2012-12-13 23:30:16

标签： javascript pdf extract

如何在客户端和任何浏览器中仅使用javascript从pdf文件中提取数据？

答案 0 :(得分：2)

pdf.js是一个JavaScript pdf阅读器： http://mozilla.github.com/pdf.js/

一些类似的项目：

如果您正在询问如何加载文件，可以通过ajax请求来完成，但您将无法直接读取文件内容。

答案 1 :(得分：-1)

你要问的几乎是不可能的。

PDF是一种重量级格式，针对高效复杂文档的显示进行了优化，而非进一步处理。（事实上，PDF文档主要由字母形状和绝对位于页面上的其他图形组成。任何表示“文本段落”的数据都是标记PDF的可选功能。）

文本提取往往是（通常是昂贵的）PDF库的一个特征，据我所知，Javascript不存在这样的库。 Scribd和Google Docs这样做，但他们可能不分享如何，我猜他们是在服务器端这样做。

tl; dr： PDF，作为一种格式，对此非常糟糕。除非你的应用程序基本上是从PDF中提取文本，否则你最好花时间去弄清楚如何不去做。