这是一个简单的问题,但我不明白。 我想检测字符串中的url并用缩短的字符串替换它们。
我在stackoverflow中找到了这个表达式,但结果只是http
Pattern p = Pattern.compile("\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]",Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(str);
boolean result = m.find();
while (result) {
for (int i = 1; i <= m.groupCount(); i++) {
String url=m.group(i);
str = str.replace(url, shorten(url));
}
result = m.find();
}
return html;
有没有更好的主意?
答案 0 :(得分:81)
让我继续前言并说明我不是复杂案件的正则表达式的大力倡导者。试图为这样的事情写出完美的表达是非常困难的。 那就是,我确实碰巧有一个用于检测URL,并且它由350行单元测试用例类支持通过。有人从一个简单的正则表达式开始,多年来我们已经增加了表达式和测试用例来处理我们发现的问题。这绝对不是小事:
// Pattern for recognizing a URL, based off RFC 3986
private static final Pattern urlPattern = Pattern.compile(
"(?:^|[\\W])((ht|f)tp(s?):\\/\\/|www\\.)"
+ "(([\\w\\-]+\\.){1,}?([\\w\\-.~]+\\/?)*"
+ "[\\p{Alnum}.,%_=?&#\\-+()\\[\\]\\*$~@!:/{};']*)",
Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
以下是使用它的示例:
Matcher matcher = urlPattern.matcher("foo bar http://example.com baz");
while (matcher.find()) {
int matchStart = matcher.start(1);
int matchEnd = matcher.end();
// now you have the offsets of a URL match
}
答案 1 :(得分:35)
/**
* Returns a list with all links contained in the input
*/
public static List<String> extractUrls(String text)
{
List<String> containedUrls = new ArrayList<String>();
String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\.&]*)";
Pattern pattern = Pattern.compile(urlRegex, Pattern.CASE_INSENSITIVE);
Matcher urlMatcher = pattern.matcher(text);
while (urlMatcher.find())
{
containedUrls.add(text.substring(urlMatcher.start(0),
urlMatcher.end(0)));
}
return containedUrls;
}
示例:
List<String> extractedUrls = extractUrls("Welcome to https://stackoverflow.com/ and here is another link http://www.google.com/ \n which is a great search engine");
for (String url : extractedUrls)
{
System.out.println(url);
}
打印:
https://stackoverflow.com/
http://www.google.com/
答案 2 :(得分:7)
m.group(1)为您提供第一个匹配组,即第一个捕获括号。这是(https?|ftp|file)
您应该尝试查看m.group(0)中是否存在某些内容,或者用括号括起所有模式并再次使用m.group(1)。
您需要重复查找功能以匹配下一个并使用新的组数组。
答案 3 :(得分:2)
在整个事物周围有一些额外的括号(开头的字边界除外),它应该匹配整个域名:
"\\b((https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"
我不认为正则表达式匹配整个网址。
答案 4 :(得分:2)
检测网址并非易事。如果它足以让你得到一个以https?| ftp |文件开头的字符串,那么它可能没问题。你的问题是,你有一个捕获组,()
,那些只是第一部分http ...
我会使用(?:)将此部分设为非捕获组,并将括号括在整个事物周围。
"\\b((?:https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"
答案 5 :(得分:1)
https://github.com/linkedin/URL-Detector
<groupId>io.github.url-detector/</groupId>
<artifactId>url-detector</artifactId>
<version>0.1.23</version>
答案 6 :(得分:0)
旧问题,但是此库可能对某人有用。通过了很多测试用例
https://mvnrepository.com/artifact/com.linkedin.urls/url-detector/0.1.17
答案 7 :(得分:0)
我尝试了这里的所有示例来提取这些不同的 url,但都不是完美的:
http://example.com
https://example.com.ua
www.example.ua
https://stackoverflow.com/question/5713558/detect-and-extract-url-from-a-string
https://www.google.com/search?q=how+to+extract+link+from+text+java+example&rlz=1C1GCEU_en-GBUA932UA932&oq=how+to+extract+link+from+text+java+example&aqs=chrome..69i57j33i22i29i30.15020j0j7&sourceid=chrome&ie=UTF-8
我写了我的正则表达式和一种制作它的方法,它可以处理带有多个链接的文本:
private static final String LINK_REGEX = "((http:\\/\\/|https:\\/\\/)?(www.)?(([a-zA-Z0-9-]){2,2083}\\.){1,4}([a-zA-Z]){2,6}(\\/(([a-zA-Z-_\\/\\.0-9#:?=&;,]){0,2083})?){0,2083}?[^ \\n]*)";
private static final String TEXT_WITH_LINKS_EXAMPLE = "link1:http://example.com link2: https://example.com.ua link3 www.example.ua\n" +
"link4- https://stackoverflow.com/questions/5713558/detect-and-extract-url-from-a-string\n" +
"link5 https://www.google.com/search?q=how+to+extract+link+from+text+java+example&rlz=1C1GCEU_en-GBUA932UA932&oq=how+to+extract+link+from+text+java+example&aqs=chrome..69i57j33i22i29i30.15020j0j7&sourceid=chrome&ie=UTF-8";
返回带有链接的 ArrayList 的方法:
private ArrayList<String> getAllLinksFromTheText(String text) {
ArrayList<String> links = new ArrayList<>();
Pattern p = Pattern.compile(LINK_REGEX, Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(text);
while (m.find()) {
links.add(m.group());
}
return links;
}
仅此而已。使用 TEXT_WITH_LINKS_EXAMPLE 参数调用此方法,将收到来自文本的五个链接。
答案 8 :(得分:-1)
此小代码段/函数将有效地从Java中的字符串中提取URL字符串。我在这里找到了执行此操作的基本正则表达式,并在Java函数中使用了它。
我在基本正则表达式上扩展了“ | www [。]”部分,以捕获不是以“ http://”开头的链接。
谈话足够多(很便宜),下面是代码:
//Pull all links from the body for easy retrieval
private ArrayList pullLinks(String text) {
ArrayList links = new ArrayList();
String regex = "\\(?\\b(http://|www[.])[-A-Za-z0-9+&@#/%?=~_()|!:,.;]*[-A-Za-z0-9+&@#/%=~_()|]";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(text);
while(m.find()) {
String urlStr = m.group();
if (urlStr.startsWith("(") && urlStr.endsWith(")"))
{
urlStr = urlStr.substring(1, urlStr.length() - 1);
}
links.add(urlStr);
}
return links;
}