scala - 如何计算相似度scala spark

我正在研究包含蛋白质名称及其域的RDD上的相似度计算功能。

实际上，我使用笛卡尔函数来确定rdd中所有可能的对，它们看起来像

((**P29535**,IPR004839;IPR004838;IPR015424;IPR015422;IPR0154),(**A6MML6**,IPR034733;IPR000438;IPR029045;IPR0117))

（PS：这只是一个例子，我发现结果对是数百万。）

粗体字是蛋白质名称，其余是它们的结构域。能帮我根据他们的域名确定他们之间的相似度吗？

我希望得到如下结果：

*protein_name1* + "and" + *protein_name2* + "have a similiarity degree equals to:" + *similarity*