问题:
我有两个字符串,比如“Billie Jean”和“Thriller”。我需要以编程方式比较它们并找出它们的相关程度。这些都是同一位艺术家的歌曲,因此,他们应该给出比“布拉德皮特”和“牙买加告别”更高的分数(概率,百分比等)。
这样做的一种方法是使用名为WikipediaMiner的开源Java工具,该工具使用Wikipedia数据转储进行比较,检查链接,描述等。
问题:
请建议一个更好的选择,使用任何或所有Wikipepdia,DBpedia,Freebase和他们的表兄弟,或结合不同的方法。我更喜欢可以在服务器上下载和设置的开源软件(例如Apache Mahout),而不是付费的Web服务。
答案 0 :(得分:0)
这不是编程问题,而是数据。
所以对于StackOverflow来说,这不是一个真正的问题。
我真正想要的是使用WordNet我猜。这实际上是指用于推理单词含义的数据库。因此,例如,数据明确指出数据挖掘是数据处理的一种形式。这是一个物理实体......
你知道,推理只会和你的数据一样好。
DBPedia还可能包括从WordNet到维基百科的映射吗?
答案 1 :(得分:0)
你不能说“Thriller”是一首歌,而不是没有额外背景的音乐视频或电影类型或Lambchop专辑。
在您确定了您的项目之后,它“仅仅”是在Freebase,MusicBrainz或您正在使用的任何其他信息源中遍历连接图的问题。
你需要决定如何对得分进行评分。两部迈克尔·杰克逊的歌曲是否更密切相关,因为它们有相同的类型,或者它们与艺术家迈克尔杰克逊的关系更密切,因为他们直接与他联系?