我正在开发一个应用程序,我需要在ePub文件上实现全文搜索。我想实现的方法之一是读取ePub文件的全文并将其推送到SQLite数据库中,然后使用SQLite进行全文搜索。但是我正在努力寻找一个库来阅读ePub文件的全文或实现全文搜索的文件。如果有人做过它或者知道一些可以帮助我实现这个的库,我真的很感激。 iOS有一个名为locayta的库,但我无法为Android找到任何东西。请帮忙!
答案 0 :(得分:0)
尝试Apache Tika提取纯文本,然后使用Apache Lucene索引文本。
答案 1 :(得分:0)
从包中的所有html文件创建一个html文件。
只获取正文标记之间的内容并将其中的每一个放在<div itemref="itemid">content</div>
中。 itemid
是OPF文件中页面条目的ID。
这样做是为了能够知道您的搜索匹配的页面。
然后加载您在隐藏的WebView中创建的html文件并使用javascript进行搜索,或者在字符串上使用正则表达式而不将其加载到webview上,或者像Gili建议的那样使用lucene之类的文件。