从HTML页面中的列表中提取地址和名称

时间:2015-06-09 00:42:23

标签: java trim

好的,所以我将一个页面HTML打印到字符串,我想从中获取某个字符串。每次加载页面时都会有所不同。例如:

Blah
blah
blah

1. name
   address
   phone number

2. name
   address
   phone number

blah
blah

可能有1到10个列表 我感兴趣的只是抓住地址名称

我确实尝试过:

 public static String removeNonDigits(final String str) {
      if (str == null || str.length() == 0) {
           return "";
      }
       return str.replaceAll("\\D+", "");
 }

但没有可用。

1 个答案:

答案 0 :(得分:0)

可能需要调整一点,我不知道空白的确切位置:

Pattern pattern = Pattern.compile("\\n *(?:[1-9]|10)\\. +(.+?) *\\n *(.+?) *\\n");
Matcher matcher = pattern.matcher(str);
while (matcher.find()) {
  System.out.println("name: " + matcher.group(1));
  System.out.println("address: " + matcher.group(2));
  System.out.println(matcher.group()); // the whole match
}