我想制作一个将文本转换为语音的pdf阅读器,我为.txt文件制作了这个,但我很困惑如何将pdf文件转换为txt。
某些pdf文件是扫描副本怎么办?
答案 0 :(得分:2)
要做到这一点,你必须使用一些东西来识别代码中的文字,根据维基百科:
光学字符识别
光学字符识别,通常缩写为OCR,是 扫描或拍摄图像的机械或电子转换 打印或打印文本到机器编码/计算机可读 文本。它被广泛用作某种形式的数据输入形式 原始纸质数据来源,无论是护照文件,发票,银行 声明,收据,名片,邮件或任何数量的印刷品 记录。这是将印刷文本数字化的常用方法 它们可以进行电子编辑,搜索,存储更紧凑, 在线显示,并用于机器等机器过程 翻译,文本到语音,关键数据提取和文本挖掘。 OCR 是一个模式识别,人工智能研究领域 和计算机视觉。
一些参考文献:
如果您无法选择要选择的内容,那么可以使用许多stackoverflow帖子,只需谷歌" android ocr stackoverflow"