如果你去这里:
http://whois.domaintools.com/iconplc.com
并查看来源
为什么你不能在HTML源代码中看到注册人数据?
是否可以通过html源获取此数据?
这些东西不在html源代码中:
Registrant:
ICON Clinical Research
212 Church Road
North Wales, PA 19454
US
Domain Name: ICONPLC.COM
Administrative Contact, Technical Contact:
ICON Clinical Research
212 Church Road
North Wales, PA 19454
US
215-616-3359 fax: 123 123 1234
Record expires on 08-Sep-2019.
Record created on 12-Dec-2007.
Domain servers in listed order:
UDNS1.ULTRADNS.NET
UDNS2.ULTRADNS.NET
即使我将网页保存为.html,我仍然无法找到电子邮件地址
答案 0 :(得分:1)
如果查看源代码,它们已链接到ajax应用程序。我的猜测是,在HTML加载后它们会将其拉下来,因此通过查看源代码将无法查看信息。
这是一个关于如何刮取ajax网站的链接:
答案 1 :(得分:1)
看起来该页面与AJAX放在一起。 Firefox中的Firebug或IE中的开发人员工具应该可以帮助您实现它。
答案 2 :(得分:1)
因为它是用JavaScript生成的。 Grep whois_data
答案 3 :(得分:1)
我有Chrome浏览器并显示您想要的内容,但不是这样的格式:
ajaxUpdate( “3”,“注册人:答案 4 :(得分:1)
我只是看了你提到的来源和文字是否,唯一提到它有
而不是空格。
<div class=\'whois_record\'>Registrant:<br/>ICON Clinical Research<br/> 212 Church Road<br/> North Wales, PA 19454<br/> US<br/><br/> Domain Name: ICONPLC.COM<br/><br/> Administrative Contact, Technical Contact:<br/> ICON Clinical Research etc.
此外,如前所述,客户端脚本以后可以随时将额外的文本添加到页面中。
答案 5 :(得分:1)
您可以使用Selenium C#Client驱动程序编写检查此css定位器css = div.whois_record的代码。然后你可以编写代码来刮掉那个特定div下的每一个。页面上的电子邮件地址是图像,因此您必须保存它。