我有一个InputstreamReader问题和html

时间:2015-06-05 23:33:18

标签: java html regex inputstreamreader

我正在尝试使用java从URL中删除表内容,但刮刀显然无法正常工作。我在inputstreamReader和其他在线示例上使用了java文档但是无法弄清楚我的问题是什么。问题是,inputstreamReader在获取最后一列时跳过表中每个偶数行的两列。每个奇数行产生所需的结果。以下是我的代码和输出enter image description here

源表如下所示: enter image description here

最后,输出如下: enter image description here

在html术语中,行中的每一列都是以行的形式读入的标记。由于跳过了两列,是否意味着inputStreamReader正在跳过两行?我认为这将是一个regEx问题,但这不是原因,因为输出的其余部分是正确的。我希望能够正确地输出或读取所有行和列以便能够继续。

1 个答案:

答案 0 :(得分:0)

奇数行和偶数行的价格模式不同。

奇数行:

    <tr>
        <td>16:00:52</td>
        <td>$&nbsp;82.14&nbsp; </td>
        <td>763</td>
    </tr>

偶数行:

    <tr>
        <td>16:00:52 </td>
        <td>$&nbsp;82.14 &nbsp;</td>
        <td>8,116</td>
    </tr>

与两种情况相匹配的模式是:

String preicePattern = "<td>\\$&.+;(\\d{1,4}\\.\\d{1,4}) *&";