用C ++解析网站数据

时间:2011-04-08 15:12:56

标签: c++ html parsing variables web

所以我正在尝试开发一个解析网站数据的程序,将该数据发送到变量中,然后我可以将其用于程序中的函数。

具体来说,我正在尝试解析此页面(点击debuffs标签)

  

http://worldoflogs.com/reports/rt-1smdoscr7neq0k6b/spell/94075/

源代码非常简单,看起来像这样。

    <td><a href='/reports/rt-1smdoscr7neq0k6b/details/62/' class='actor'><span class='Warrior'>Zonnza</span></a></td>
    <td>100</td>
</tr>
<tr>
    <td><a href='/reports/rt-1smdoscr7neq0k6b/details/3/' class='actor'><span class='DeathKnight'>Fillzholez</span></a></td>
    <td>89</td>
</tr>

虽然我只想要数字和名称,但是<td></td>之间和<span class=''></span>标签之间的数字和名称。无论如何要做我正在寻找的事情吗?

非常感谢任何帮助。

3 个答案:

答案 0 :(得分:2)

我会调查Tag Soup。它是HTML的解析器,可以处理所有可怕的HTML。它也有一个C++ port(没有用过,所以不能评论它的稳定性。)

答案 1 :(得分:1)

您尝试做的事情没有C ++库(除非您要与Mozilla或WebKit的一半链接),但您可以考虑将Java与HTMLUnit一起使用。

对于那些提出正则表达的人来说,这是强制性的reference

答案 2 :(得分:0)

当C风格的sscanf执行时,甚至perl或任何具有正则表达式支持的语言都不需要使用C ++。