我需要某种algorythm来从mp4engine中提取链接。
Here is the example of a page I want to scrap.
在这种情况下,所需的输出是:http://mp4engine.com:182/d/a2chmyndcqqgkpskitclvbgu5pgwxve2vmlrdsctpwbte2flb4i4hrz6/.hack_Roots(配音)第001-360p.mp4页
我尝试使用HtmlAgilityPack
来获取播放器代码,但它是p,a,c,k,e,d
,而且我无法在我的C#Windows Phone 8.1项目中执行它。我想过使用Jurassic包来执行JS,但它似乎不适用于WinPhone8.1
以下是我使用HAP编写的脚本:
<script type='text/javascript'>eval(function(p,a,c,k,e,d){while(c-- )if(k[c])p=p.replace(new RegExp('\\b'+c.toString(a)+'\\b','g'),k[c]);return p} ('15("14").13({f:"0://2.1:e/d/c/.b (a) 9 8- 7.6",12:"0://2.1/4/h.g",11:"0://2.1/i/10/z.y",x:"w",v:u,t:s,5:"0",r:"0://2.1/4/q /p",o:[{3:"n",m:"0://2.1/4/h.g"},{3:"l",k:{f:\'0://2.1:e/d/c/.b (a) 9 8- 7.6\',\'5\':\'0\'}},{3:"j"}],});',36,42,'http|com|mp4engine|type|player|provider|mp4|360p|001|Episode|Dub|hack_Roots|a2chmyndcqqgkpskitclvbgu5pgwxve2vmlrdsctpwbte2flb4i4hrz6||182|file|swf|jw6||download|config|html5|src|flash|modes|six|skins|skin|420|height|722|width|1484|duration|jpg|hahgl235zwv2|00000|image|flashplayer|setup|flvplayer|jwplayer'.split('|')))
我也尝试使用内置的WebView控件:
WebView wv = new WebView();
//... navigation to string and all that
var res = await wv.InvokeScriptAsync("eval", null);
不幸的是,该函数返回空字符串(res = ""
)
我还搜索了我可以解码的base64
字符串,但该页面似乎没有。
我该怎么做才能获得视频网址?
答案 0 :(得分:0)
在<div id="player_code" ...
内,最后一个<script>
标记包含视频网址所在的模糊javascript代码。这个site可以对此代码进行反混淆,结果将如下所示:
jwplayer("flvplayer").setup({
file: "http://mp4engine.com:182/d/a2chmyndcqqgkpskitclvbgu5pgwxve2vmlrdsctpwbsg7asjwghgk4p/.hack_Roots (Dub) Episode 001-360p.mp4",
flashplayer: "http://mp4engine.com/player/jw6.swf",
image: "http://mp4engine.com/i/00000/hahgl235zwv2.jpg",
duration: "1484",
width: 722,
height: 420,
provider: "http",
skin: "http://mp4engine.com/player/skins/six",
modes: [{
type: "flash",
src: "http://mp4engine.com/player/jw6.swf"
}, {
type: "html5",
config: {
file: 'http://mp4engine.com:182/d/a2chmyndcqqgkpskitclvbgu5pgwxve2vmlrdsctpwbsg7asjwghgk4p/.hack_Roots (Dub) Episode 001-360p.mp4',
'provider': 'http'
}
}, {
type: "download"
}],
});
如您所见,file:
包含视频网址。因此,在您的C#代码中,您可以下载该页面的HTML代码,在<script>
中查找最后一个<div id="player_code" ...
标记,并使用同一网站上列出的C# port对其进行取消混淆。< / p>
答案 1 :(得分:0)
HtmlAgilityPack只接受静态HTML代码,需要执行动态内容(javascript)来获取数据。
您有三种方式:
1 - 在c#中实现javascript的美化代码(在这里你可以看到一个例子:http://jsbeautifier.org/)。在这种情况下,仅适用于您的情况,您可以提取视频网址,因为它就在上面,但这并不常见。
2 - 使用.net网络浏览器连接到页面并执行javascript代码来抓取数据,在这种情况下,您的应用程序必须是Windows窗体应用程序。
3 - 使用无头浏览器连接到页面并执行javascript代码来刮取数据。你可以使用着名的phatomjs。示例:C# example of using PhantomJS webdriver ExecutePhantomJS to filter out images