我想从这个示例html中提取项目,更具体地说,我想隔离以下内容: algp1, 生产 50733 GEN_APPL KANTOOR
<table width="95%" border="1">
<tr><td colspan=3><a name="algp1"></a><img src="menu/db2inst.jpg"> <font color="#FF0000" size="+1">algp1</font> (PRODUCTION, 50733)</td></tr>
<tr><td width="20%" valign=top><a name="GENAPPLP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> GEN_APPL</font></b><br>(GENAPPLP)</td><td width="15%" valign=top>PARK</td><td width="70%" valign=top><font size="2">BOOKINGCARPARKING‚ CUSTOMERS‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
<tr><td width="20%" valign=top><a name="KANTOORP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> KANTOOR</font></b><br>(KANTOORP)</td><td width="15%" valign=top>CDDB</td><td width="70%" valign=top><font size="2">BATIMENTS‚ BATIMENTS_EXC‚ OFFICES‚ OFFICES_EXC‚ RECETTES‚ RECETTES_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>IDR</td><td width="70%" valign=top><font size="2">ADMINISTRATION‚ ADMINISTRATION_EXC‚ ARROND‚ ARROND_EXC‚ BUREAU‚ BUREAU_EXC‚ CODEX‚ CODEX_EXC‚ COMMUNE‚ COMMUNE_EXC‚ COMPETENCE‚ COMPETENCE_EXC‚ COMPTE‚ COMPTE_EXC‚ LNKBCC‚ LNKBCC_EXC‚ LNKBCI‚ LNKBCI_EXC‚ LNKBPC‚ LNKBPC_EXC‚ LNKBS‚ LNKBS_EXC‚ LNKCBRR‚ LNKCBRR_EXC‚ LNKCS‚ LNKCS_EXC‚ MAP_CP_BUREAU‚ PAYS‚ PAYS_EXC‚ PROVINCE‚ PROVINCE_EXC‚ RANGE_RUE‚ RANGE_RUE_EXC‚ REGION‚ REGION_EXC‚ RUE‚ RUE_EXC‚ SERVICE‚ SERVICE_EXC‚ TPCODEX‚ TPCODEX_EXC‚ TPCOMPTE‚ TPCOMPTE_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
</table>
答案 0 :(得分:2)
结帐JTidy。它将解析HTML并为您提供迭代的DOM接口。
除了最简单的情况外,我强烈建议不要使用正则表达式。 HTML不是常规的,并且没有结束边缘的情况会让你失望。
答案 1 :(得分:0)