我有一个带有“n到m”关系的数值数据集(作为数据库表)。例如:
A | B
-----
1 | 1
1 | 2
1 | 9
4 | 2
7 | 8
7 | 11
我想“训练”一个分类器(使用weka?)告诉我哪一个A最有可能是一组B的。举个例子:[1,2,8]应该告诉我一些{1:2,4:1,7:1}的内容,即:“这个集合是在N次中找到的”
我当然可以在sql和我最喜欢的脚本语言中实现它。但是,我想知道是否有更多 - 我猜“正式” - 这样做的方式。我有weka运行,我有我的数据库连接,但我丢失了哪个分类器(许多拒绝服务),我也非常欣赏理论背景的一些链接(例如,它叫什么我喜欢做什么和有什么改进)。
如果你在R中更加多才多艺,我也会欣赏“R”方式。(但是,我不仅对解决我的问题感兴趣,而且还了解这是什么类型的问题 - 我会通过weka解决方案。)我很抱歉,如果这是一个重复的问题,但遗憾的是我缺乏信息来指明我在这里寻找的东西。你可以用可视化和其他输出来学习和学习。
我提前感谢你,只是为了阅读,希望你能帮忙。
答案 0 :(得分:1)
在R中你可以这样做:
foo = data.frame(A=c(1,1,1,4,7,7),B=c(1,2,9,2,8,11))
foo
# A B
# 1 1 1
# 2 1 2
# 3 1 9
# 4 4 2
# 5 7 8
# 6 7 11
table(foo[foo$B %in% c(1,2,8),]$A)
# 1 4 7
# 2 1 1
你还需要更多东西吗?