Question

如果你去这里：

http://whois.domaintools.com/iconplc.com

并查看来源

为什么你不能在HTML源代码中看到注册人数据？

是否可以通过html源获取此数据？

这些东西不在html源代码中：

Registrant:
ICON Clinical Research
   212 Church Road
   North Wales, PA 19454
   US

   Domain Name: ICONPLC.COM

   Administrative Contact, Technical Contact:
      ICON Clinical Research                
      212 Church Road
      North Wales, PA 19454
      US
      215-616-3359 fax: 123 123 1234

   Record expires on 08-Sep-2019.
   Record created on 12-Dec-2007.

   Domain servers in listed order:

   UDNS1.ULTRADNS.NET           
   UDNS2.ULTRADNS.NET

即使我将网页保存为.html，我仍然无法找到电子邮件地址

Answer 1

如果查看源代码，它们已链接到ajax应用程序。我的猜测是，在HTML加载后它们会将其拉下来，因此通过查看源代码将无法查看信息。

这是一个关于如何刮取ajax网站的链接：

How do you scrape AJAX pages?

Answer 2

看起来该页面与AJAX放在一起。 Firefox中的Firebug或IE中的开发人员工具应该可以帮助您实现它。

Answer 3

因为它是用JavaScript生成的。 Grep whois_data

的来源

Answer 4

我有Chrome浏览器并显示您想要的内容，但不是这样的格式：

ajaxUpdate（ “3”，“注册人：
ICON临床研究
212教堂路
北威尔士，PA 19454
美国

域名：ICONPLC。 COM

管理联系人，技术联系人：
ICON临床研究
212教堂路
北威尔士，PA 19454
美国
215-616 -3359传真：123 123 1234

记录到期08九月2019
记录12日 - 12月2007中列出顺序创建

域服务器。：

UDNS1.ULTRADNS.NET
UDNS2.ULTRADNS.NET“）

Answer 5

我只是看了你提到的来源和文字是否，唯一提到它有 而不是空格。

<div class=\'whois_record\'>Registrant:<br/>ICON&nbsp;Clinical&nbsp;Research<br/>&nbsp;&nbsp;&nbsp;212&nbsp;Church&nbsp;Road<br/>&nbsp;&nbsp;&nbsp;North&nbsp;Wales,&nbsp;PA&nbsp;19454<br/>&nbsp;&nbsp;&nbsp;US<br/><br/>&nbsp;&nbsp;&nbsp;Domain&nbsp;Name:&nbsp;ICONPLC.COM<br/><br/>&nbsp;&nbsp;&nbsp;Administrative&nbsp;Contact,&nbsp;Technical&nbsp;Contact:<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ICON&nbsp;Clinical&nbsp;Research&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; etc.

此外，如前所述，客户端脚本以后可以随时将额外的文本添加到页面中。

Answer 6

您可以使用Selenium C＃Client驱动程序编写检查此css定位器css = div.whois_record的代码。然后你可以编写代码来刮掉那个特定div下的每一个。页面上的电子邮件地址是图像，因此您必须保存它。

html源不显示所有可见数据

6 个答案: