我正在尝试创建一种算法,该算法将1000个链接池中的500个不同的源url字符串与3个相似的url匹配。因此,对于每个源URL,该算法将搜索1000个链接的列表,并从分类上选择3个最相似的链接。具体来说,对于每个源页面(www.sourcepage.com),它将尝试查找子级和子级链接(www.sourcepage.com/child)和(www.sourcepage.com/child/grandchild)。理想情况下,我将得到一个数据框,其中包含一列1500个源URL(每个重复500个源URL,重复3次)和一列1500个目标URL。不知道从哪里开始,因为我是这种编程的新手。