我已经在RDD中提取了维基百科页面之间的链接,其格式如下:
Array[(String, String)] = Array((AccessibleComputing,[Computer accessibility]),
(Anarchism,[political philosophy, stateless society]))
第一个字符串是页面(Vertex),第二个字符串是指向其他Wiki页面的链接列表(边缘)。
如何将其转换为图形友好格式:
Array(
(AccessibleComputing,Computer accessibility),
(Anarchism,stateless society),
(Anarchism,political philosophy)
)
以便为每个顶点重复边缘
答案 0 :(得分:0)
drop
,split
和flatMap
?
data.flatMap{case (k, v) => v.drop(1).dropRight(1).split(", ").map((k, _))}