在Folksonomies中搜索。如何解决同义问题?

时间:2009-12-29 18:53:35

标签: search tags information-retrieval synonym folksonomy

有人能否了解如何在del.icio.us这样的网站上进行搜索?

如果我输入“js”(1),“javascript”(2)或“java script”(3)作为我对美味的查询,我指的是有关Java Script的资源。但是,根据查询,返回的结果集是不同的(del.icio.us系统为“js”和“javascript”查询返回不同的书签集)。

所以系统似乎并不真正意识到(1)和(2)是彼此的同义词。相反,它会尝试将我的查询与包含相关标签或标题中的查询字符串的书签相匹配。这是对的吗?

您如何“教育”系统所有(1),(2),(3)实际上是同义词,并且无论选择哪个查询,用户都应该看到所有与Java Script相关的资源?

这样做甚至是个好主意吗?

谢谢, 格雷格

4 个答案:

答案 0 :(得分:1)

是:人类brain

严重的是:从密切相关的主题以编程方式告知同义词将是非常非常困难的IMO。标签组合极有可能一起出现,例如javascriptjquery。当然,您可以对信息执行某些操作,例如,jqueryjavascript之后永远不会发生,因此必须是某种子集,但实际上它确实发生在其上自己也是。如果标记正确,XMLXSLT会经常出现在一起,但不是同义词,要知道这一点,您需要有实际知识的人来进行调用。

我建议使用预过滤系统找到同义词的候选者,并建议管理员进行实际的同义词。

答案 1 :(得分:0)

没有完美的解决方案。您可以明确地将关键字声明为同义词,其他所有内容都会或多或少地猜测。

一种方法可能是使用距离度量。在美味的情况下,您将汇总两个关键字应用于相同书签的次数。

你可能会得到一些误报。例如,“红宝石”可能与“轨道”一起使用较少,反之亦然,因为“轨道”意味着“红宝石”而“红宝石”意味着“轨道”。这可能是从同义词中删除相关术语的有用属性,这些术语应该或多或少地互换使用。

答案 2 :(得分:0)

您也可以尝试点按WordNet

答案 3 :(得分:0)

您可以使用LSATFIDF等工具来尝试找出数据中包含的概念。这很可能是del.icio.us所做的。