Solr Tika,文字与风格

时间:2010-12-14 05:26:57

标签: solr apache-tika

我看过这个链接: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 我得到的是纯文本,没有任何来自Tika for Solr的搜索风格。 是否可以从Solr获得其风格的文本? 换句话说,我们需要在solr搜索后以原始样式显示文本。

1 个答案:

答案 0 :(得分:0)

如果你考虑一下,pdf中的“原始风格”是什么?你希望保留“风格”的哪些组成部分?

不仅仅是字体和重量,还有笔触,填充,角度,路径,图形,跟踪,透明度,变换等等。如果你掌握了所有这些,你将如何在UI / Web中显示它?

除了显示原始PDF之外,您无法以任何方式复制原始样式。所以,如果他们想要原始格式,人们通常会这样做。

否则,他们只使用纯文本。