我在索引PDF时出现问题,因此Hibernate Search的全文搜索功能出现问题。我试图索引大约3750个对象。每个对象都有几个字段,包括我要索引的2个字符串:
@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "ANZEIGENAME")
private String anzeigeName; // VARCHAR2(250),
@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "BESCHREIBUNG")
private String beschreibung; // VARCHAR2(512),
还有一个byte []字段我想索引全文搜索那些PDF&#39>
@Field(index = Index.TOKENIZED, store = Store.YES)
@FieldBridge(impl = FieldBridgeConverter.class)
@Lob
@Column(name = "PDFDATA")
private byte[] pdfData; // BLOB;
这就是我的FieldBridge的PDF版本
public class FieldBridgeConverter implements StringBridge {
public String objectToString(final Object object) {
byte[] file = (byte[]) object;
return file.toString();
}
}
现在的问题是那些3750对象的总大小为3.5 Gb。 因此,在一个接一个地持续存在后,我的索引文件夹的总大小为1.5 mb,用于3750对象。看起来有点奇怪,因为根据http://lucene.apache.org/core/ 索引文件大约是文本大小的20-30%。所以它至少应该在500 mb左右。
这是我的persistence.xml:
<?xml version="1.0" encoding="UTF-8" ?>
<persistence xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://java.sun.com/xml/ns/persistence http://java.sun.com/xml/ns/persistence/persistence_2_0.xsd"
version="2.0" xmlns="http://java.sun.com/xml/ns/persistence">
<persistence-unit name="DlcHibernateDAO">
<provider>org.hibernate.ejb.HibernatePersistence</provider>
<jta-data-source>java:/DlcDS</jta-data-source>
<!-- <class>servicepackage.DlcBO</class>-->
<!-- <jta-data-source>java:/DownloadcenterDS</jta-data-source> -->
<class>servicepackage.ClickBO</class>
<class>servicepackage.DlcBO</class>
<properties>
<property name="hibernate.dialect" value="org.hibernate.dialect.Oracle10gDialect" />
<property name="hibernate.show_sql" value="false" />
<property name="hibernate.format_sql" value="false" />
<property name="hibernate.use_sql_comments" value="false" />
<property name="hibernate.generate_statistics" value="false" />
<property name="hibernate.connection.characterEncoding"
value="UTF-8" />
<property name="hibernate.cache.provider_class" value="org.hibernate.cache.HashtableCacheProvider" />
<!-- JBoss 7 uses Hibernate 3 module -->
<property name="jboss.as.jpa.providerModule" value="org.hibernate:3" />
<property name="hibernate.search.default.directory_provider"
value="org.hibernate.search.store.FSDirectoryProvider" />
<property name="hibernate.search.default.indexBase" value="C:/Temp/indexes" />
</properties>
</persistence-unit>
</persistence>
我没有获得任何异常,并且所有对象都在我的数据库中。我无法更新Hibernate Search版本,因为我必须使用Hibernate 3.所以我搞砸了哪里?< / p>
答案 0 :(得分:1)
我想第一步是查看索引。由于您使用的是文件系统目录并且存储了索引值,因此可以使用Luke之类的方法来检查索引。一旦你这样做,如果你发现很多胡言乱语,我不会感到惊讶。问题是您正在将二进制格式(pdf)传递给Lucene。 Lucene不知道如何处理pdf文件。它只适用于字符串。如果你想索引pdf,word,xml等,你需要某种转换器程序,它将从你的文件/数据中提取可索引文本。 Apache Tika是一个可以处理许多不同二进制数据格式的工具,包括pdf。
从Hibernate Search 4.2实际上存在可以使用的内置TikaBridge。但是,您需要升级。我认为TikaBridge代码可能是后端移植的(使用自定义桥接器),但我宁愿前进并升级Hibernate ORM和Search。你为什么不升级Hibernate?是什么让你对Hibernate 3有用?
如果您想尝试后退/自定义网桥,请查看TikaBridge来源。它向您展示了基本方法。