在页面上查找URL

时间:2013-10-24 08:56:56

标签: javascript html

首先,我想说我对HTML及所有编程内容的了解很少,但我的工作涉及找到链接URL等源代码的某些方面,以改进我正在处理的过程。

我几天以来一直面临着一个问题,因为我试图检索某个链接的其中一个网站是用不同于我认为的HTML语言编写的。它的链接以.aspx结尾,即使在我浏览网页时也不会改变。

我试图检查页面的源代码,我需要找到这个特定的URL,但它是用javascript编写的,我不知道如何阅读它。我试图谷歌搜索找到一个解决方案,但没有遇到任何有用的或者我只是无法理解,因为就像我说我几乎没有任何关于编程的知识。

无论如何,我已经弄清楚链接在页面上的位置,但我希望有人告诉我如何找出它背后的URL。它在源代码中看起来像这样:

</div> -->
    <input type="submit" name="ctl00$ContentPlaceHolder1$ValidateButton" value="View Image" onclick="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions(&quot;ctl00$ContentPlaceHolder1$ValidateButton&quot;, &quot;&quot;, true, &quot;&quot;, &quot;&quot;, false, false))" id="ctl00_ContentPlaceHolder1_ValidateButton" /><br />
</div>

从页面上我感兴趣的地方开始的整个事情看起来像这样,但是没有涉及到验证码。您只需单击该按钮即可下载文件:

<a id="ctl00_ContentPlaceHolder1_ImageLink"><h4>[Image]</h4></a> </DIV>
                        <DIV align="center"><span id="ctl00_ContentPlaceHolder1_ImageInfo">- File Size: 582KB | Pages: 1 -</span> </DIV><BR />
                        <DIV align="left"><span id="ctl00_ContentPlaceHolder1_ErrorMessage"></span> </DIV>
                        <DIV align="left"><span id="ctl00_ContentPlaceHolder1_documentError"></span> </DIV>

                                <div align=center>
                                    <!-- <div id="CaptchaDiv">
                                    <script type="text/javascript">
        var RecaptchaOptions = {
            theme : 'clean',
            tabindex : 0
        };

</script><script type="text/javascript" src="http://www.google.com/recaptcha/api/challenge?k=6LfZzsMSAAAAAD2h79x90-FvI0AtkBatVFqydtgE">

</script><noscript>
        <iframe src="http://www.google.com/recaptcha/api/noscript?k=6LfZzsMSAAAAAD2h79x90-FvI0AtkBatVFqydtgE" width="500" height="300" frameborder="0">

        </iframe><br /><textarea name="recaptcha_challenge_field" rows="3" cols="40"></textarea><input name="recaptcha_response_field" value="manual_challenge" type="hidden" />
</noscript>
                                    </div> -->
                                    <input type="submit" name="ctl00$ContentPlaceHolder1$ValidateButton" value="View Image" onclick="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions(&quot;ctl00$ContentPlaceHolder1$ValidateButton&quot;, &quot;&quot;, true, &quot;&quot;, &quot;&quot;, false, false))" id="ctl00_ContentPlaceHolder1_ValidateButton" /><br />
                                </div>

1 个答案:

答案 0 :(得分:1)

也许这些代码对你有帮助:

var urlexp = new RegExp('(http|ftp|https)://[a-z0-9\-_]+(\.[a-z0-9\-_]+)+([a-z0-9\-\.,@\?^=%&;:/~\+#]*[a-z0-9\-@\?^=%&;/~\+#])?', 'i');
var result = urlexp.exec(document.body.innerHTML);

result是包含匹配网址的数组。