Question

我在文本中有几个锚标记，

输入：<a href="http://stackoverflow.com" >Take me to StackOverflow</a>

输出： http://stackoverflow.com

如何在不使用第三方API的情况下找到所有这些输入字符串并将其转换为java中的输出字符串？

Answer 1

核心API中有一些类可用于从锚标记中获取所有href属性（如果存在！）：

import java.io.*;
import java.util.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class HtmlParseDemo {
   public static void main(String [] args) throws Exception {

       String html =
           "<a href=\"http://stackoverflow.com\" >Take me to StackOverflow</a> " +
           "<!--                                                               " +
           "<a href=\"http://ignoreme.com\" >...</a>                           " +
           "-->                                                                " +
           "<a href=\"http://www.google.com\" >Take me to Google</a>           " +
           "<a>NOOOoooo!</a>                                                   ";

       Reader reader = new StringReader(html);
       HTMLEditorKit.Parser parser = new ParserDelegator();
       final List<String> links = new ArrayList<String>();

       parser.parse(reader, new HTMLEditorKit.ParserCallback(){
           public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
               if(t == HTML.Tag.A) {
                   Object link = a.getAttribute(HTML.Attribute.HREF);
                   if(link != null) {
                       links.add(String.valueOf(link));
                   }
               }
           }
       }, true);

       reader.close();
       System.out.println(links);
   }
}

将打印：

[http://stackoverflow.com, http://www.google.com]

Answer 2

public static void main(String[] args) {
    String test = "qazwsx<a href=\"http://stackoverflow.com\">Take me to StackOverflow</a>fdgfdhgfd"
            + "<a href=\"http://stackoverflow2.com\">Take me to StackOverflow2</a>dcgdf";

    String regex = "<a href=(\"[^\"]*\")[^<]*</a>";

    Pattern p = Pattern.compile(regex);

    Matcher m = p.matcher(test);
    System.out.println(m.replaceAll("$1"));
}

注意： 所有Andrzej Doyle的观点都是有效的，如果您的输入中有更多简单<a href="X">Y</a>，并且您确定这是可解析的HTML，然后你会更好地使用HTML解析器。

总结：

如果您在评论中<a>，我发布的正则表达式无效。（你可以把它视为特例）
如果<a>标记中包含其他属性，则无效。（再次，你可以将其视为特例）
还有许多其他情况，正则表达式不起作用，你不能用正则表达式覆盖所有这些情况，因为HTML不是常规语言。

但是，如果您的req总是将<a href="X">Y</a>替换为"X"而不考虑上下文，那么我发布的代码将有效。

Answer 3

您可以使用JSoup

String html = "<p>An <a href=\"http://stackoverflow.com\" >Take me to StackOverflow</a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String linkHref = link.attr("href"); // "http://stackoverflow.com"

另见

Example

Answer 4

上面的例子很完美;如果你想解析一个HTML文档而不是串联字符串，写下这样的东西来补充上面的代码。

上面的现有代码〜修改为显示：上面的HtmlParser.java（HtmlParseDemo.java）使用下面的HtmlPage.java补充代码。 HtmlPage.properties文件的内容位于此页面的底部。

HtmlPage.properties文件中的main.url属性是：的 main.url = HTTP：//www.whatever.com/

这样你就可以解析你之后的网址了。 :-) 快乐的编码:-D

import java.io.Reader; import java.io.StringReader; import java.util.ArrayList; import java.util.List; import javax.swing.text.MutableAttributeSet; import javax.swing.text.html.HTML; import javax.swing.text.html.HTMLEditorKit; import javax.swing.text.html.parser.ParserDelegator; public class HtmlParser { public static void main(String[] args) throws Exception { String html = HtmlPage.getPage(); Reader reader = new StringReader(html); HTMLEditorKit.Parser parser = new ParserDelegator(); final List<String> links = new ArrayList<String>(); parser.parse(reader, new HTMLEditorKit.ParserCallback() { public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) { if (t == HTML.Tag.A) { Object link = a.getAttribute(HTML.Attribute.HREF); if (link != null) { links.add(String.valueOf(link)); } } } }, true); reader.close(); // create the header System.out.println("<html>\n<head>\n <title>Link City</title>\n</head>\n<body>"); // spit out the links and create href for (String l : links) { System.out.print(" <a href=\"" + l + "\">" + l + "</a>\n"); } // create footer System.out.println("</body>\n</html>"); } } import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.io.StringWriter; import java.net.HttpURLConnection; import java.net.URL; import java.util.ResourceBundle; public class HtmlPage { public static String getPage() { StringWriter sw = new StringWriter(); ResourceBundle bundle = ResourceBundle.getBundle(HtmlPage.class.getName().toString()); try { URL url = new URL(bundle.getString("main.url")); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setRequestMethod("GET"); connection.setDoOutput(true); InputStream content = (InputStream) connection.getInputStream(); BufferedReader in = new BufferedReader(new InputStreamReader(content)); String line; while ((line = in.readLine()) != null) { sw.append(line).append("\n"); } } catch (Exception e) { e.printStackTrace(); } return sw.getBuffer().toString(); } }

例如，如果在浏览器中查看，则会从http://ebay.com.au/输出链接。这是一个子集，因为有很多链接

Link City #mainContent http://realestate.ebay.com.au/

Answer 5

最强大的方法（如已经建议的那样）是使用正则表达式（java.util.regexp），如果您需要在不使用3d方库的情况下构建它。

另一种方法是将html解析为XML，使用SAX解析器来捕获和处理“a”元素的每个实例，或者作为DOM Document，然后使用XPATH进行搜索（参见http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/package-summary.html）。这是有问题的，因为它要求HTML页面在标记中完全符合XML，这是一个非常危险的假设，而不是我推荐的方法，因为大多数“真正的”html页面都不符合XML。

尽管如此，我还建议您查看为此目的而构建的现有框架（如JSoup，也在上面提到）。无需重新发明轮子。

使用Java从html中提取锚标记

5 个答案: