我正在尝试使用ReactNative,JavaScript用我的语言构建ios字典应用程序。
我有一个pdf文档(这是一个实际的文本文件),其中包含大多数具有自己定义的单词。
如何使用该文件作为我的API的来源?
什么是最有效的方法?
!https://github.com/bayram96/stack-over-flow-images/blob/master/IMG_3525.jpeg
答案 0 :(得分:0)
简短的回答-您无法做到。至少它太复杂了,付出的努力也无法收回。
PDF不是文本文件。它更像是压缩的html + css。 我不会详细介绍该格式。
但是从根本上说,它可以优化内容,因此,使用十六进制编辑器(或记事本)打开它时看到的内容并不总是与可见文本匹配。实际上,这将是非常罕见的情况。
除了嵌入图像和其他元数据之外,它还嵌入字体,并且通常仅嵌入字体的使用部分。此外,其中的文本不是utf-8,因此即使在记事本中也不会出现任何非拉丁字符。特别是在词典中,文本中出现了多个特殊字符,它们没有等效的拉丁字母。
此外,即使一组字符显示为文本,它们在文件中的位置也可能不正确,因为格式在页面上也具有坐标。
也许您可以找到一个第三方pdf解析器(软件或服务),您可以使用该解析器从中提取一些文本数据,并获得更一致的输出。然后路由您的文件并进行转换。但是我仍然描述了多个问题。