Web抓取选项 - 仅限C ++版本

时间:2009-05-07 13:52:51

标签: c++ screen-scraping

我正在寻找一个用于网页抓取的优秀C ++库 必须是C / C ++和没有其他所以请不要指导我Options for HTML scraping或其他SO问题/答案,其中甚至没有提到C ++。< / p>

4 个答案:

答案 0 :(得分:41)

答案 1 :(得分:2)

我推荐Qt5.6.2,这个功能强大的库为我们提供了

  1. 高级,直观,异步的网络API,如QNetworkAccessManager,QNetworkReply,QNetworkProxy等
  2. 功能强大的正则表达式类,如QRegularExpression
  3. 体面的网络引擎,如QtWebEngine
  4. 像QWidgets一样健壮,成熟的gui
  5. 大多数Qt5 api都经过精心设计,信号和插槽使写入异步代码变得更加容易
  6. 很棒的unicode支持
  7. 功能丰富的文件系统库。无论是创建,删除,重命名还是找到保存文件的标准路径,都是Qt5中的小菜一碟。
  8. QNetworkAccessManager的异步api可以很容易地立即生成许多下载请求
  9. 跨主要的桌面平台,windows,mac os和linux,在任何地方编写一次编写,只编写一个代码库。
  10. 易于在Windows和Mac上部署(linux?也许linuxdeployqt可以为我们节省大量麻烦)
  11. 易于在Windows,Mac和Linux上安装
  12. 等等
  13. 我已经通过Qt5编写了一个图像刮刀应用程序,这个应用程序几乎可以刮掉谷歌,必应和雅虎搜索到的所有图像。

    要了解有关它的更多详情,请访问my github project。 我写下了关于如何通过Qt5抓取数据的高级概述 我的博客(在堆栈溢出时发布的时间太长了。)

答案 2 :(得分:2)

使用myhtml C / C ++解析器here;很简单,非常很快。除C99外,没有依赖项。并且内置了CSS选择器(示例here

答案 3 :(得分:1)

// download winhttpclient.h
// --------------------------------
#include <winhttp\WinHttpClient.h>
using namespace std;
typedef unsigned char byte;
#define foreach         BOOST_FOREACH
#define reverse_foreach BOOST_REVERSE_FOREACH

bool substrexvealue(const std::wstring& html,const std::string& tg1,const std::string& tg2,std::string& value, long& next) {
    long p1,p2;
    std::wstring wtmp;
    std::wstring wtg1(tg1.begin(),tg1.end());
    std::wstring wtg2(tg2.begin(),tg2.end());

    p1=html.find(wtg1,next);
    if(p1!=std::wstring::npos) {
        p2=html.find(wtg2,next);
        if(p2!=std::wstring::npos) {
            p1+=wtg1.size();
            wtmp=html.substr(p1,p2-p1-1);
            value=std::string(wtmp.begin(),wtmp.end());
            boost::trim(value);
            next=p1+1;
        }
    }
    return p1!=std::wstring::npos;
}
bool extractvalue(const std::wstring& html,const std::string& tag,std::string& value, long& next) {
    long p1,p2,p3;
    std::wstring wtmp;
    std::wstring wtag(tag.begin(),tag.end());

    p1=html.find(wtag,next);
    if(p1!=std::wstring::npos) {
        p2=html.find(L">",p1+wtag.size()-1);
        p3=html.find(L"<",p2+1);
        wtmp=html.substr(p2+1,p3-p2-1);
        value=std::string(wtmp.begin(),wtmp.end());
        boost::trim(value);
        next=p1+1;
    }
    return p1!=std::wstring::npos;
}
bool GetHTML(const std::string& url,std::wstring& header,std::wstring& hmtl) {
    std::wstring wurl = std::wstring(url.begin(),url.end());
    bool ret=false;
    try {
        WinHttpClient client(wurl.c_str());
        std::string url_protocol=url.substr(0,5);
        std::transform(url_protocol.begin(), url_protocol.end(), url_protocol.begin(), (int (*)(int))std::toupper);
        if(url_protocol=="HTTPS")    client.SetRequireValidSslCertificates(false);
        client.SetUserAgent(L"User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
        if(client.SendHttpRequest()) {
            header = client.GetResponseHeader();
            hmtl = client.GetResponseContent();
            ret=true;
        }
    }catch(...) {
        header=L"Error";
        hmtl=L"";
    }
    return ret;
}
int main() {
    std::string url = "http://www.google.fr";
    std::wstring header,html;
    GetHTML(url,header,html));
}