太阳能标签云

时间:2011-04-20 22:15:51

标签: solr tag-cloud

我似乎陷入了Solr faceting-powered标签云的逻辑背后。首先,我使用OpenNLP来解析我的文档并从中获取相关的单词,因此每个文档都被分成n个单词。 这基本上是我的Solr响应的样子:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>

我相信必须有一种方法来整合这里的单词。我首先想到的是这样的事情:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>

但是分面是不可能的,因为我不知道每个docID会得到多少单词字段,然后必须跨字段进行分面(我甚至不确定它;可能) 。我试图寻找可能的答案,但我似乎陷入困境......最后,我需要制作一个能够获得我索引中每个单独文档的n个单词。我们非常感激思想。

1 个答案:

答案 0 :(得分:2)

我建议使用多值的单个单词字段,并存储每个文档的单词列表。

有未绑定数量的单词\ d +字段会使事情变得复杂。

如果您使用单个单词多值字段,则可以获得所有单词及其频率,这足以创建标签云。