解析HTML以获取内容及其标记

时间:2015-11-30 06:10:40

标签: java html jsoup

这可能是一个奇怪的问题。但是通过详细的解释,我可能会得到一个解决方案(至少是一个启动点。)

我正致力于使用selenium& amp;来自动化本地化测试(L10N)。 Java。作为可能的方法之一,

  • 我在Java中使用HTML Jsoup解析器来获取HTML页面的纯文本。
  • 此外,我想保留这些提取的文字,标记 Excel文件

现在据我所知,Parsers如果提供过滤器会给出相应的纯文本。但有没有办法让我可以获得基础HTML tag和文本?甚至可以使用Jsoup或任何其他解析器吗?

e.g。当我将 Accounts 作为解析文本时,我希望得到<option>

&#13;
&#13;
<html>

<body>
  <select>
    <option value="Savings">Accounts</option>
  </select>
</body>

</html>
&#13;
&#13;
&#13;

1 个答案:

答案 0 :(得分:1)

使用Jsoup可以做到这一点,

    Document doc = Jsoup.parse("<html><body<select><option value=\"Savings\">Accounts</option></select></body></html>");

    String contentText = "Accounts";

    Elements elems = doc.select(":containsOwn(" + contentText + ")");

    for(Element e: elems) {
        System.out.println("Html : " + e.outerHtml());
        System.out.println("Tag  : " + e.tagName());
    }

Ouptput

  Html : <option value="Savings">Accounts</option>
  Tag  : option