如何计算相似度scala spark

时间:2020-06-26 11:56:10

标签: scala apache-spark bioinformatics

我正在研究包含蛋白质名称及其域的RDD上的相似度计算功能。

实际上,我使用笛卡尔函数来确定rdd中所有可能的对,它们看起来像

((**P29535**,IPR004839;IPR004838;IPR015424;IPR015422;IPR0154),(**A6MML6**,IPR034733;IPR000438;IPR029045;IPR0117))

(PS:这只是一个例子,我发现结果对是数百万。)

粗体字是蛋白质名称,其余是它们的结构域。 能帮我根据他们的域名确定他们之间的相似度吗?

我希望得到如下结果:

*protein_name1* + "and" + *protein_name2* + "have a similiarity degree equals to:" + *similarity*

0 个答案:

没有答案