有人建议我从PDF文件中抓取数据并使用PHP或任何其他工具将其保存到MySql数据库。
实际上,我正在创建一个脚本,它将读取纯文本内容(使用apache-tika工具将pdf内容转换为纯文本),并将其保存到数据库中。但这是一个非常漫长的过程,并不准确。
所以,请建议我完成这项任务的任何其他方法。
答案 0 :(得分:2)
你可以做一件事,如果你想废弃1或2 pdf你可以使用任何在线工具将pdf转换为html,然后使用simplehtmlDom库你可以废弃数据。 您可以使用PDF Text Extractor从pdf中删除文本。
我希望它对你有所帮助