首先,我想说我对HTML及所有编程内容的了解很少,但我的工作涉及找到链接URL等源代码的某些方面,以改进我正在处理的过程。
我几天以来一直面临着一个问题,因为我试图检索某个链接的其中一个网站是用不同于我认为的HTML语言编写的。它的链接以.aspx结尾,即使在我浏览网页时也不会改变。
我试图检查页面的源代码,我需要找到这个特定的URL,但它是用javascript编写的,我不知道如何阅读它。我试图谷歌搜索找到一个解决方案,但没有遇到任何有用的或者我只是无法理解,因为就像我说我几乎没有任何关于编程的知识。
无论如何,我已经弄清楚链接在页面上的位置,但我希望有人告诉我如何找出它背后的URL。它在源代码中看起来像这样:
</div> -->
<input type="submit" name="ctl00$ContentPlaceHolder1$ValidateButton" value="View Image" onclick="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("ctl00$ContentPlaceHolder1$ValidateButton", "", true, "", "", false, false))" id="ctl00_ContentPlaceHolder1_ValidateButton" /><br />
</div>
从页面上我感兴趣的地方开始的整个事情看起来像这样,但是没有涉及到验证码。您只需单击该按钮即可下载文件:
<a id="ctl00_ContentPlaceHolder1_ImageLink"><h4>[Image]</h4></a> </DIV>
<DIV align="center"><span id="ctl00_ContentPlaceHolder1_ImageInfo">- File Size: 582KB | Pages: 1 -</span> </DIV><BR />
<DIV align="left"><span id="ctl00_ContentPlaceHolder1_ErrorMessage"></span> </DIV>
<DIV align="left"><span id="ctl00_ContentPlaceHolder1_documentError"></span> </DIV>
<div align=center>
<!-- <div id="CaptchaDiv">
<script type="text/javascript">
var RecaptchaOptions = {
theme : 'clean',
tabindex : 0
};
</script><script type="text/javascript" src="http://www.google.com/recaptcha/api/challenge?k=6LfZzsMSAAAAAD2h79x90-FvI0AtkBatVFqydtgE">
</script><noscript>
<iframe src="http://www.google.com/recaptcha/api/noscript?k=6LfZzsMSAAAAAD2h79x90-FvI0AtkBatVFqydtgE" width="500" height="300" frameborder="0">
</iframe><br /><textarea name="recaptcha_challenge_field" rows="3" cols="40"></textarea><input name="recaptcha_response_field" value="manual_challenge" type="hidden" />
</noscript>
</div> -->
<input type="submit" name="ctl00$ContentPlaceHolder1$ValidateButton" value="View Image" onclick="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("ctl00$ContentPlaceHolder1$ValidateButton", "", true, "", "", false, false))" id="ctl00_ContentPlaceHolder1_ValidateButton" /><br />
</div>
答案 0 :(得分:1)
也许这些代码对你有帮助:
var urlexp = new RegExp('(http|ftp|https)://[a-z0-9\-_]+(\.[a-z0-9\-_]+)+([a-z0-9\-\.,@\?^=%&;:/~\+#]*[a-z0-9\-@\?^=%&;/~\+#])?', 'i');
var result = urlexp.exec(document.body.innerHTML);
result
是包含匹配网址的数组。