Java - 正则表达式搜索字符串

时间:2010-12-20 06:55:36

标签: java regex

我正在读取一个类似

的文件中的字符串
<div style="Z-INDEX: 654; BORDER-BOTTOM: 0px; POSITION: absolute; BORDER-LEFT: 0px; WIDTH: 80px; HEIGHT: 22px; BORDER-TOP: 0px; TOP: 64px; CURSOR: auto; BORDER-RIGHT: 0px; LEFT: 240px" id="textboxElt11286249556014dIi15v" lineid="lineid" pos_rel="false" x1="240" x2="320" y1="64" y2="86"><input style="WIDTH: 80px; HEIGHT: 20px" id="textboxElt11286249556014dIi15v_textbox" title="Enter Registration Number Here" tabindex="1" value=" " maxlength="15" size="10" name="scheduled_tribe_registration_number_text"></input></div>

会有多行此类并且数据不固定我想获取样式的值我想用正则表达式做,因为子元素也可以在其中具有样式属性并且我想要获取所有样式属性

3 个答案:

答案 0 :(得分:2)

Java有许多优秀的html解析器库,HTMLCleaner就是其中之一。

以下是获取样式属性的更好方法:

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

public class Test {

    public static void main(String[] args) throws Throwable {
        HtmlCleaner cleaner = new HtmlCleaner();
        String html = "<div style=\"Z-INDEX: 654; BORDER-BOTTOM: 0px; POSITION: absolute; BORDER-LEFT: 0px; WIDTH: 80px; HEIGHT: 22px; BORDER-TOP: 0px; TOP: 64px; CURSOR: auto; BORDER-RIGHT: 0px; LEFT: 240px\" id=\"textboxElt11286249556014dIi15v\" lineid=\"lineid\" pos_rel=\"false\" x1=\"240\" x2=\"320\" y1=\"64\" y2=\"86\"><input style=\"WIDTH: 80px; HEIGHT: 20px\" id=\"textboxElt11286249556014dIi15v_textbox\" title=\"Enter Registration Number Here\" tabindex=\"1\" value=\" \" maxlength=\"15\" size=\"10\" name=\"scheduled_tribe_registration_number_text\"></input></div>";
        TagNode node = cleaner.clean(html);
        TagNode div = node.findElementByName("div", true);
        System.out.println(div.getAttributeByName("style"));
    }
}

如果您熟悉jquery,还应该检查jsoup

答案 1 :(得分:0)

不要使用正则表达式来解析html。话虽这么说,你可以使用类似的东西:

<div \s*style="([A-Z0-9-;: ]*)"\s*>

答案 2 :(得分:0)

不要使用正则表达式来解析html。这个也使用正则表达式:

String line = getNextLineFromInput();
String[] parts = line.split("\"");
String style = "";
for (int i = 0; i < parts.length; i++) {
  if (parts[i].endsWith("style=") {
    style = parts[i+1];
    break;
  }
}

注意:对于所有真实世界的html文件,这将失败,但是您提到了一些输入,就像您的示例行一样;对于这种类型的输入,这是一个非常专业的解决方案。