提取字符串中的链接并返回一个对象数组

时间:2015-04-18 14:58:24

标签: javascript url text extract

我从服务器收到一个字符串,这个字符串包含文本和链接(主要以http://,https://和www开头,很少有不同,但如果它们不同则无关紧要)。

示例:

  

“简单文本简单文本简单文本domain.ext / subdir再次文本文本文本youbank.com/transfertomealltheirmoney/witharegex文本文本文本再次文本”

我需要一个执行以下操作的JS函数: - 找到所有链接(无论是否有重复); - 返回一个对象数组,每个对象代表一个链接,以及返回链接在文本中开始的位置以及结束位置的键,如下所示:

[{link:"http://www.dom.ext/dir",startsAt:25,endsAt:47},
{link:"https://www.dom2.ext/dir/subdir",startsAt:57,endsAt:88},
{link:"www.dom.ext/dir",startsAt:176,endsAt:192}]

这可能吗?怎么样?

编辑:@Touffy:我试过这个,但是我无法知道任何字符串有多长,只有起始索引。此外,这不会检测到www:var str = string with many links (SO does not let me post them)" var regex =/(\b(https?|ftp|file|www):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig; var result, indices = []; while ( (result = regex.exec(str)) ) { indices.push({startsAt:result.index}); }; console.log(indices[0].link);console.log(indices[1].link);

1 个答案:

答案 0 :(得分:2)

解决这个问题的一种方法是使用正则表达式。无论输入什么,您都可以执行类似

的操作
 var expression = /(https?:\/\/(?:www\.|(?!www))[^\s\.]+\.[^\s]{2,}|www\.[^\s]+\.[^\s]{2,})/gi;
 var matches = input.match(expression);

然后,您可以使用indexOf

迭代匹配以发现起点和终点
for(match in matches)
    {
        var result = {};
        result['link'] = matches[match];
        result['startsAt'] = input.indexOf(matches[match]);
        result['endsAt'] = 
            input.indexOf(matches[match]) + matches[match].length;
     }

当然,您可能需要修改正则表达式本身以满足您的特定需求。

您可以在此fiddle

中查看控制台记录的结果