从网页中检索特定信息

时间:2016-04-13 12:22:11

标签: c++ qt qnetworkaccessmanager

我正在寻找一种使用Qt从网页获取特定信息的方法。到目前为止,我一直在使用QNetworkAccessManager并设法获取包含页面中所有内容的HTTP响应。

现在什么是过滤此信息并解析xml以获取相关信息的正确方法?例如,如果您想查询维基百科以获取信息,您将如何仅保存信息而不保存页面的源代码?

1 个答案:

答案 0 :(得分:0)

您可以解析内容,仅检索所需的信息,然后将其存储。

Qt为您提供了一些帮助您做到这一点的工具。

wiki有更多相关信息。

如果它是有效的XML,您可以使用XML Handling classes,您可以使用其他工具将损坏的XML HTML页面转换为有效的XML,如wiki中所述。

要验证和修复HTML文件,您可以使用libTidy