我希望这是一项简单的任务,但它会选择那些精通CefSharp的人来解决它。
我有一个我想从中检索HTML的网址。问题是这个特定网址实际上并没有在GET上分发页面。相反,它将一大堆Javascript推送到浏览器,然后浏览器执行并生成实际呈现的页面。这意味着涉及HttpWebRequest
和HttpWebResponse
的常用方法无法正常运行。
我看过许多不同的"无头"选项,以及我认为最符合我需要的选项有很多原因是CefSharp.Offscreen。但我对这件事的运作方式感到茫然。我看到有几个可以订阅的事件和一些配置选项,但我不需要像嵌入式浏览器那样的东西。
我真正需要的是一种做这样的事情的方式(伪代码):
string html = CefSharp.Get(url);
订阅活动时我没有问题,如果需要等待Javascript执行并生成呈现的页面。
答案 0 :(得分:3)
如果你无法获得Chromium的无头版本来帮助你,你可以试试node.js和jsdom(https://github.com/tmpvar/jsdom)。一旦节点启动并运行,便于安装和播放。你可以在Github README上看到简单的例子,他们下拉URL,运行所有的javascript,包括任何自定义的javascript代码(例如:jQuery位来计算某些类型的元素),然后你在内存中有HTML来做你想做的事情。您可以执行$(' body')。html()并获取字符串,就像在伪代码中一样。 (这甚至适用于生成SVG图形的东西,因为那只是更多的XML树节点。)
如果您需要将此作为需要分发的较大C#应用程序的一部分,那么您使用CefSharp.Offscreen的想法听起来很合理。一种方法可能是首先使用CefSharp.WinForms或CefSharp.WPF,然后你可以在字面上看到东西,然后在这一切都工作的时候尝试CefSharp.Offscreen。您甚至可以在屏幕浏览器中运行一些JavaScript来下载body.innerHTML并将其作为字符串返回到C#端,然后再无头。如果有效,其余的应该很容易。
也许从CefSharp.MinimalExample(https://github.com/cefsharp/CefSharp.MinimalExample)开始并进行编译,然后根据您的需要进行调整。您需要能够在C#代码中设置webBrowser.Address,并且您需要知道页面何时已加载,然后您需要调用webBrowser.EvaluateScriptAsync(" .. JS代码..")使用您的JavaScript代码(作为字符串),它将按照描述执行某些操作(将bodyElement.innerHTML作为字符串返回)。
答案 1 :(得分:1)
我知道我正在做一些考古工作以恢复2yo的帖子,但是详细的回答可能对其他人有用。
是的,Cefsharp.Offscreen适合该任务。
下面是一个将处理所有浏览器活动的类。
using System;
using System.IO;
using System.Threading;
using CefSharp;
using CefSharp.OffScreen;
namespace [whatever]
{
public class Browser
{
/// <summary>
/// The browser page
/// </summary>
public ChromiumWebBrowser Page { get; private set; }
/// <summary>
/// The request context
/// </summary>
public RequestContext RequestContext { get; private set; }
// chromium does not manage timeouts, so we'll implement one
private ManualResetEvent manualResetEvent = new ManualResetEvent(false);
public Browser()
{
var settings = new CefSettings()
{
//By default CefSharp will use an in-memory cache, you need to specify a Cache Folder to persist data
CachePath = Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.LocalApplicationData), "CefSharp\\Cache"),
};
//Autoshutdown when closing
CefSharpSettings.ShutdownOnExit = true;
//Perform dependency check to make sure all relevant resources are in our output directory.
Cef.Initialize(settings, performDependencyCheck: true, browserProcessHandler: null);
RequestContext = new RequestContext();
Page = new ChromiumWebBrowser("", null, RequestContext);
PageInitialize();
}
/// <summary>
/// Open the given url
/// </summary>
/// <param name="url">the url</param>
/// <returns></returns>
public void OpenUrl(string url)
{
try
{
Page.LoadingStateChanged += PageLoadingStateChanged;
if (Page.IsBrowserInitialized)
{
Page.Load(url);
//create a 60 sec timeout
bool isSignalled = manualResetEvent.WaitOne(TimeSpan.FromSeconds(60));
manualResetEvent.Reset();
//As the request may actually get an answer, we'll force stop when the timeout is passed
if (!isSignalled)
{
Page.Stop();
}
}
}
catch (ObjectDisposedException)
{
//happens on the manualResetEvent.Reset(); when a cancelation token has disposed the context
}
Page.LoadingStateChanged -= PageLoadingStateChanged;
}
/// <summary>
/// Manage the IsLoading parameter
/// </summary>
/// <param name="sender"></param>
/// <param name="e"></param>
private void PageLoadingStateChanged(object sender, LoadingStateChangedEventArgs e)
{
// Check to see if loading is complete - this event is called twice, one when loading starts
// second time when it's finished
if (!e.IsLoading)
{
manualResetEvent.Set();
}
}
/// <summary>
/// Wait until page initialization
/// </summary>
private void PageInitialize()
{
SpinWait.SpinUntil(() => Page.IsBrowserInitialized);
}
}
}
现在在我的应用中,我只需要执行以下操作:
public MainWindow()
{
InitializeComponent();
_browser = new Browser();
}
private async void GetGoogleSource()
{
_browser.OpenUrl("http://icanhazip.com/");
string source = await _browser.Page.GetSourceAsync();
}
这是我得到的字符串
"<html><head></head><body><pre style=\"word-wrap: break-word; white-space: pre-wrap;\">NotGonnaGiveYouMyIP:)\n</pre></body></html>"