在Java中解析HTML以创建XML

时间:2011-03-03 13:59:26

标签: java html xml nsxmlparser

<TBODY>
 <TR>
 <TD colSpan=4>Detail of your Trip</TD></TR>
 <TR></TR>
  <TR>
  <TD colSpan=4>Booking Ref. : XXX</TD></TR>
   <TR></TR>
  <TR>
  <TD>Client</TD>
    <TD colSpan=2>Ticket Number</TD>
    <TD>FOID</TD></TR>
    <TR>
     <TD>Person (ADT)</TD>
   <TD colSpan=2>000000</TD>
  <TD>XXXX</TD></TR>
  <TR></TR>
  <TR>
  <TD>From: Location 1</TD>
  <TD>To : Location 2</TD>
   <TD colSpan=2>Flight : LLL</TD></TR>
     <TR>
  <TD colSpan=2></TD>
   <TD colSpan=2>Departure : 14Aug, 15:55 Latest check-in time limit : 15:25 </TD></TR>
    <TR>
    <TD colSpan=2></TD>
   <TD colSpan=2>Arrival : 17:25</TD></TR>
   <TR>
   <TD colSpan=2></TD>
   <TD colSpan=2>Class N</TD></TR>
   <TR>
  <TD>From : Location 2</TD>
  <TD>To :Location1</TD>
  <TD colSpan=2>Flight : AF2585 Resa : OK</TD></TR>
   <TR>
   <TD colSpan=2></TD>
   <TD colSpan=2>Departure : "Time" Latest check-in time limit : "Time" </TD></TR>
  <TR>
  <TD colSpan=2></TD>
  <TR>
  <TD colSpan=2></TD>

我想解析这个HTML并获取详细信息,例如旅行者名称..日期

并创建XML。

2 个答案:

答案 0 :(得分:1)

因为XSLT是解决几乎所有问题的某种圣杯,我建议你用“Html Tidy”或者用一个可以将html转换为xhtml的java库来获取你的HTML到xhtml,然后使用XSLT提取数据你我想用。

答案 1 :(得分:1)

我对HTMLCleaner(http://htmlcleaner.sourceforge.net/javause.php)有一些很好的经验。 它很简单,可以创建格式良好的XML。