标签: ruby-on-rails ubuntu poppler
我正在开发一个Ruby on Rails应用程序,用于从PDF文件中提取文本和图像。在提取图像时,其中很少会被破坏。
提取后有没有办法识别那些损坏的图像?有人知道他们为什么会被腐化吗?
我正在使用pdftohtml和pdftotext(poppler)Ubuntu实用程序。
pdftohtml
pdftotext
提前致谢。