从PDF中废弃数据并将其保存到mysql数据库

时间:2016-06-14 11:05:28

标签: php mysql apache-tika

有人建议我从PDF文件中抓取数据并使用PHP或任何其他工具将其保存到MySql数据库。

实际上,我正在创建一个脚本,它将读取纯文本内容(使用apache-tika工具将pdf内容转换为纯文本),并将其保存到数据库中。但这是一个非常漫长的过程,并不准确。

所以,请建议我完成这项任务的任何其他方法。

1 个答案:

答案 0 :(得分:2)

你可以做一件事,如果你想废弃1或2 pdf你可以使用任何在线工具将pdf转换为html,然后使用simplehtmlDom库你可以废弃数据。 您可以使用PDF Text Extractor从pdf中删除文本。

我希望它对你有所帮助