html源不显示所有可见数据

时间:2010-04-14 13:06:02

标签: c# html

如果你去这里:

http://whois.domaintools.com/iconplc.com

并查看来源

为什么你不能在HTML源代码中看到注册人数据?

是否可以通过html源获取此数据?

这些东西不在html源代码中:

Registrant:
ICON Clinical Research
   212 Church Road
   North Wales, PA 19454
   US

   Domain Name: ICONPLC.COM

   Administrative Contact, Technical Contact:
      ICON Clinical Research                
      212 Church Road
      North Wales, PA 19454
      US
      215-616-3359 fax: 123 123 1234

   Record expires on 08-Sep-2019.
   Record created on 12-Dec-2007.

   Domain servers in listed order:

   UDNS1.ULTRADNS.NET           
   UDNS2.ULTRADNS.NET

即使我将网页保存为.html,我仍然无法找到电子邮件地址

6 个答案:

答案 0 :(得分:1)

如果查看源代码,它们已链接到ajax应用程序。我的猜测是,在HTML加载后它们会将其拉下来,因此通过查看源代码将无法查看信息。

这是一个关于如何刮取ajax网站的链接:

How do you scrape AJAX pages?

答案 1 :(得分:1)

看起来该页面与AJAX放在一起。 Firefox中的Firebug或IE中的开发人员工具应该可以帮助您实现它。

答案 2 :(得分:1)

因为它是用JavaScript生成的。 Grep whois_data

的来源

答案 3 :(得分:1)

我有Chrome浏览器并显示您想要的内容,但不是这样的格式:

ajaxUpdate( “3”,“注册人:
ICON临床研究
212教堂路
北威尔士,PA 19454
美国

域名:ICONPLC。 COM

管理联系人,技术联系人:
ICON临床研究
212教堂路
北威尔士,PA 19454
美国
215-616 -3359传真:123 123 1234

记录到期08九月2019
记录12日 - 12月2007中列出顺序创建

域服务器。 :

UDNS1.ULTRADNS.NET
UDNS2.ULTRADNS.NET“)

答案 4 :(得分:1)

我只是看了你提到的来源和文字是否,唯一提到它有 而不是空格。

<div class=\'whois_record\'>Registrant:<br/>ICON&nbsp;Clinical&nbsp;Research<br/>&nbsp;&nbsp;&nbsp;212&nbsp;Church&nbsp;Road<br/>&nbsp;&nbsp;&nbsp;North&nbsp;Wales,&nbsp;PA&nbsp;19454<br/>&nbsp;&nbsp;&nbsp;US<br/><br/>&nbsp;&nbsp;&nbsp;Domain&nbsp;Name:&nbsp;ICONPLC.COM<br/><br/>&nbsp;&nbsp;&nbsp;Administrative&nbsp;Contact,&nbsp;Technical&nbsp;Contact:<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ICON&nbsp;Clinical&nbsp;Research&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; etc.

此外,如前所述,客户端脚本以后可以随时将额外的文本添加到页面中。

答案 5 :(得分:1)

您可以使用Selenium C#Client驱动程序编写检查此css定位器css = div.whois_record的代码。然后你可以编写代码来刮掉那个特定div下的每一个。页面上的电子邮件地址是图像,因此您必须保存它。