如何在HTML文档中提取JavaScript链接?

时间:2009-05-22 14:00:01

标签: javascript html hyperlink web-crawler

我正在为一个网站编写一个小型的webspider,它使用大量的javascript链接:

<htmlTag onclick="someFunction();">Click here</htmlTag>

函数如下所示:

function someFunction() {
  var _url;
  ...
  // _url constructed, maybe with reference to a value in the HTML doc
  // and/or a value passed as argument(s) to this function
  ...
  window.location.href = _url;
}

评估此函数服务器端的最佳方法是什么,以便为_url构造值?

4 个答案:

答案 0 :(得分:2)

您还可以使用env.jsrhino来实际评估html中的JavaScript,并在手动触发点击事件后检测位置对象的更改。

答案 1 :(得分:0)

不完全确定您要完成的任务。

如果您需要将这些值发送到服务器进行处理,Ajax将是您的最佳选择。

答案 2 :(得分:0)

这应该是一团糟。 但这取决于许多参数:

  1. 链接存储在哪里? 在元素内部,在javascript中 var等...
  2. javascript函数总是如此 你自己的?
  3. 一些可以解决问题的提示,应该简单地解析你的html并使用正则表达式捕获http链接,其中onclick =“someFunction();”属性存在。

答案 3 :(得分:0)

如果您需要服务器端处理,则需要:

  1. 在将内容传递给用户之前进行处理,并将其输出包含在响应中,或
  2. 使用类似AJAX的内容向服务器发送新请求