我正在研究包含蛋白质名称及其域的RDD上的相似度计算功能。
实际上,我使用笛卡尔函数来确定rdd中所有可能的对,它们看起来像
((**P29535**,IPR004839;IPR004838;IPR015424;IPR015422;IPR0154),(**A6MML6**,IPR034733;IPR000438;IPR029045;IPR0117))
(PS:这只是一个例子,我发现结果对是数百万。)
粗体字是蛋白质名称,其余是它们的结构域。 能帮我根据他们的域名确定他们之间的相似度吗?
我希望得到如下结果:
*protein_name1* + "and" + *protein_name2* + "have a similiarity degree equals to:" + *similarity*