如何在客户端和任何浏览器中仅使用javascript从pdf文件中提取数据?
答案 0 :(得分:2)
pdf.js是一个JavaScript pdf阅读器: http://mozilla.github.com/pdf.js/
一些类似的项目:
如果您正在询问如何加载文件,可以通过ajax请求来完成,但您将无法直接读取文件内容。
答案 1 :(得分:-1)
你要问的几乎是不可能的。
PDF是一种重量级格式,针对高效复杂文档的显示进行了优化,而非进一步处理。 (事实上,PDF文档主要由字母形状和绝对位于页面上的其他图形组成。任何表示“文本段落”的数据都是标记PDF的可选功能。)
文本提取往往是(通常是昂贵的)PDF库的一个特征,据我所知,Javascript不存在这样的库。 Scribd和Google Docs这样做,但他们可能不分享如何,我猜他们是在服务器端这样做。
tl; dr: PDF,作为一种格式,对此非常糟糕。除非你的应用程序基本上是从PDF中提取文本,否则你最好花时间去弄清楚如何不去做。