我看过这个链接: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是纯文本,没有任何来自Tika for Solr的搜索风格。 是否可以从Solr获得其风格的文本? 换句话说,我们需要在solr搜索后以原始样式显示文本。
答案 0 :(得分:0)
如果你考虑一下,pdf中的“原始风格”是什么?你希望保留“风格”的哪些组成部分?
不仅仅是字体和重量,还有笔触,填充,角度,路径,图形,跟踪,透明度,变换等等。如果你掌握了所有这些,你将如何在UI / Web中显示它?
除了显示原始PDF之外,您无法以任何方式复制原始样式。所以,如果他们想要原始格式,人们通常会这样做。
否则,他们只使用纯文本。