我想做一些基本的脚本,我想在javascript中做。我想基本上下载一个wikiquote页面并将其删除。
最好的方法是什么?我如何获得该页面?我试图通过jQuery.get()
来做到这一点$.get('http://en.wikiquote.org/wiki/Last_words', function(data) { console.log(data); })
但是日志只是一些错误对象而控制台显示
XMLHttpRequest无法加载 http://en.wikiquote.org/wiki/Last_words。 原则为null不允许 访问控制允许来源。 en.wikiquote.org/wiki/Last_words
获取http://en.wikiquote.org/wiki/Last_words undefined(undefined)
所以我想我没有采取正确的方法。我该怎么办?
另外,一旦我下载文件,我可以使用哪些工具来遍历它? XPath的?正则表达式?有没有办法从它生成DOM模型并附加jquery?
一个有趣的可能性是以某种方式打开一个小的弹出窗口,下载页面,然后运行我的脚本来刮取页面并返回数据。我知道这听起来很像脚本注入。是否有可能以友好的方式做到这一点?
答案 0 :(得分:5)
假设您仅限于在浏览器中运行的JavaScript,以及与运行脚本的页面不在同一主机上的文档 - 您不能。
Same Origin security policy使这变得不可能。没有它,网页可以从用户可以访问的任何站点(包括LAN站点)请求数据,包括其IP地址,cookie以及可能用于身份验证的任何其他内容。 (您的所有银行业务都属于我们。)
答案 1 :(得分:3)
WikiQuote exposes an API。您可以使用JSONP向API发出请求,并获取所有预先解析并准备好的数据:
document.body.appendChild(document.createElement("script")).src =
"http://en.wikiquote.org/w/api.php?action=query&titles=Last_words" +
"&prop=revisions&rvlimit=1&rvprop=content&format=json&callback=handleQuote";
function handleQuote(quote)
{
// quote is the response from wikiquote
}
请注意,响应将作为wiki标记返回,而不是html。 你必须做一些解析才能得到html,如果这就是你所追求的。 编辑:使用action=parse&page=Last_words
来获取HTML。
您可以将format
参数从json
更改为jsonfm
,然后将其粘贴到浏览器中,从而在浏览器中预览JSON响应:
<强> HTML 强>
http://en.wikiquote.org/w/api.php?action=parse&page=Last_words&format=jsonfm&callback=handleQuote
编辑:我真的只回答了你问题的一半(或更少)。至于如何在获得数据后与数据交互,jQuery使它变得简单。如果将html字符串传递给$()
,jQuery会为您构造元素。然后,您可以通过jQuery或DOM方法访问它:
var paragraphs = $(someHTML).find("p");
通过JavaScript从任何域获取HTML的一种简单方法是将ajax请求发送到为您请求文档的本地服务器页面。你可以写一个通用的处理程序ashx页面,例如:
public void ProcessRequest(HttpContext context)
{
string url = Request.QueryString["url"];
if (Uri.IsWellFormedUriString(url, UriKind.Absolute))
{
context.Response.Write(new WebClient().DownloadString(url));
}
}
然后用jQuery调用它:
var url = encodeURIComponent("http://en.wikiquote.org/wiki/Last_words");
$.get("fetch.ashx?url=" + url, function (response)
{
var $response = $(response);
});
编辑:较新的浏览器通过实施Cross-Origin Resource Sharing (CORS)支持通过JavaScript支持某些跨域数据检索。 FireFox和Chrome通过XMLHttpRequest
支持CORS。 IE8和IE9支持CORS XDomainRequest
。问题是服务器还必须支持CORS。简而言之,服务器必须包含Access-Control-Allow-Origin: *
的响应头,以便客户端处理响应。遗憾的是,看来wikiquote并未在其响应中发送该标题。这是一个hefty article on the internals of CORS。
答案 2 :(得分:1)
XMLHttpRequest
不能用于跨域请求。您可以使用iframe
加载页面并尝试从那里获取详细信息,但我建议使用服务器端(使用DOM或SAX解析器来回答您的其他问题),因为在JavaScript中执行此操作是显然不是很优雅。