我正在尝试使用java从URL中删除表内容,但刮刀显然无法正常工作。我在inputstreamReader和其他在线示例上使用了java文档但是无法弄清楚我的问题是什么。问题是,inputstreamReader在获取最后一列时跳过表中每个偶数行的两列。每个奇数行产生所需的结果。以下是我的代码和输出。
源表如下所示:
最后,输出如下:
在html术语中,行中的每一列都是以行的形式读入的标记。由于跳过了两列,是否意味着inputStreamReader正在跳过两行?我认为这将是一个regEx问题,但这不是原因,因为输出的其余部分是正确的。我希望能够正确地输出或读取所有行和列以便能够继续。
答案 0 :(得分:0)
奇数行和偶数行的价格模式不同。
奇数行:
<tr>
<td>16:00:52</td>
<td>$ 82.14 </td>
<td>763</td>
</tr>
偶数行:
<tr>
<td>16:00:52 </td>
<td>$ 82.14 </td>
<td>8,116</td>
</tr>
与两种情况相匹配的模式是:
String preicePattern = "<td>\\$&.+;(\\d{1,4}\\.\\d{1,4}) *&";