我有一个使用openJPA的现有数据模型,我正在尝试使用Mahout集成一个CF系统。
请原谅我,如果这是一个骨头问题,但我刚开始研究mahout。 Mahout在行动中是在邮件中,所以我应该尽快加速。
我的问题是如何将mahout与现有的jpa模型集成。我是否需要向DataModel类提供CSV文件,或者我是否可以将DataModel扩展为直接从现有的dataSource读取。我意识到从我的数据生成CSV文件并不是很复杂,但这样做似乎是一个不必要的中间步骤。
我对“大数据集”世界很陌生,所以请原谅我的无知。但是大多数使用Mahout的系统都使用CSV数据集吗?不知怎的,这对我来说很奇怪。
感谢。
修改
所以我正在阅读亚马逊提供的关于Mahout in Action的预览。您似乎可以将mahout接口直接插入到数据库中,但这样做会牺牲性能。我迫不及待想要拿到这本书。任何关于此的评论或提示仍然非常感谢。
答案 0 :(得分:1)
分布式/ Hadoop内容可以从HDFS,Hbase或Cassandra中读取,或者你有什么。
非分布式内容通常从文件中读取,并且有一些钩子可以从数据库/ JDBC中读取。源不是那么重要,因为推荐模型无论如何都要将其加载到内存中。
您可以自己编写DataSource
,重用GenericDataModel
或修改其他实现。