我是网络抓取新手。我正在尝试使用java抓取网页,但我遇到了问题。我需要在“HTML标记”中获取该链接。其href是一个javascript函数。我不知道如何获得javascript函数中的链接。这是html源代码和javascript源代码。
HTML
<a href='javascript:ShowPostGridUnique(205316,0);'>link</a>
JS ShowPostGridUnique
function ShowPostGridUnique(parentpostid, pageShow) {
//alert(parentpostid);
var divid;
divid = 'divPostContent' + parentpostid;
if (document.getElementById(divid).className == 'divGridShow') {
document.getElementById(divid).className = 'divGridHide';
document.getElementById(divid).innerHTML = '';
}
else {
document.getElementById(divid).className = 'divGridShow';
// call server side method
PageMethods.divParentInnerHtml( parentpostid, pageShow, CallSuccessShowPost, CallFailedAlert, parentpostid);
try {
divid = 'TDtitle' + parentpostid;
document.getElementById(divid).className = 'TDtitle';
divid = 'TDPage' + parentpostid;
document.getElementById(divid).className = 'TDtitle';
}
catch (err) {
//Handle errors here
}
}
}
我如何获得href的链接?感谢。
答案 0 :(得分:0)
使用像Phantomjs这样的无头浏览器。 http://phantomjs.org/
使用ghostdriver / selenium来控制Phantomjs https://github.com/SeleniumHQ/selenium https://github.com/detro/ghostdriver