如何解析html并获取信息

时间:2012-07-25 18:22:24

标签: c++ html html-parsing

请考虑HTML文档中的摘录:

<select id="convert-to" name="currency-2">
  <option  value='EUR'>Euro (EUR)</option>
  <option  value='GBP'>British Pound (GBP)</option>
  <option selected='selected' value='USD'>United States Dollar (USD)</option>
  <option  value='AUD'>Australian Dollar (AUD)</option>
  <option  value='CAD'>Canadian Dollar (CAD)</option>
  <option  value='CHF'>Swiss Franc (CHF)</option>
  <option  value='CNY'>Chinese Yuan (CNY)</option>
</select>

我如何抓住像

这样的内容
  • 欧元(EUR)
  • 英镑(GBP)
  • 美元(USD)
  • 澳元(澳元)

在上面的html代码块中,没有使用任何html解析器或附加组件,只是普通的C ++。

2 个答案:

答案 0 :(得分:2)

简单方法:

  1. 搜索下一个"<option"子字符串
  2. 跳至下一个">"
  3. 阅读所有内容,直到下一个"<"并将其存储在某个地方
  4. 重复

答案 1 :(得分:2)

  

只是简单的C ++循环

不可能。 HTML不是常规的,因此不可能使用正则表达式来匹配它。