用于在网站上查找联系方式的脚本或库

时间:2011-09-07 03:25:45

标签: information-retrieval

有没有人知道脚本/食谱/图书馆,以便在网站上找到最相关的联系信息?

一些可能的情况:

  • 在个人网页上查找联系电话号码
  • 在博客上查找所有者电子邮件地址
  • 查找联系页面的网址

2 个答案:

答案 0 :(得分:2)

结帐WSO2's Mashup Server。您可以在本地计算机上运行它,并按照scraping的教程进行操作。您可以将所需的动态参数传递到scraper的<http>元素中,以遍历运行相同scrape的多个站点,然后将所有内容推送到集合源(用于捕获信息或存储在WSO2服务器中的AJAX应用程序)。您可以使用XPath和XSLT编写非常复杂的搜索模式来捕获所需的信息。

我没有足够的信息来描述您正在寻求帮助编写脚本的具体网站,但是无论如何,在获得您想要的结果之前,需要进行大量的反复试验。< / p>

快乐刮!

答案 1 :(得分:1)

我不知道有任何库这样做。

嗯,我会使用正则表达式来匹配电话号码和电子邮件地址,再加上一个遍历网站的网络蜘蛛,然后是一种对联系信息进行排名的方法。

通常情况下,联系信息也会与少数常用标签之一合作,例如“支持”,“支持电子邮件”,“销售”等。可能会有十几个版本的这些标签将涵盖95%的所有标签。英文网站。

所以,基本上我首先要构建一个简单的递归网络蜘蛛,它遍历给定域中的所有可公开访问的页面,解析HTML以查找电子邮件地址和电话号码,并列出它们,然后根据它们进行排名关于它们是否列在任何常用标签附近。

它不会是完美的,但是再一次,这是算法价值的一部分 - 让它变得更聪明,并随着时间的推移进行调整,直到它变得更好。