在Java中从HTML页面中提取元素的首选方法是什么?
我的HTML有以下许多行:
<tr class="item-odd">
<td class="data"><a href="http://.....">TITLE</a></td>
<td><div class="cost">$1.99</div></td>
</tr>
该班级会替换item-odd
和item-even.
我需要提取:
正则表达式是否可行?
答案 0 :(得分:6)
我会使用像HTML Parser这样的库来完成这项工作。请查看samples和/或javadoc。另请参阅此处的previous questions。
HTML Parser非常易于使用,应该可以胜任。有关替代方案,请查看此previous answer。
答案 1 :(得分:3)
JTidy可以很好地解析HTML并使其可以作为DOM进行操作。正则表达式通常不是的方式,因为HTML不是常规的,并且有许多边缘情况可以帮助你。