information-retrieval - 用于在网站上查找联系方式的脚本或库

用于在网站上查找联系方式的脚本或库

时间：2011-09-07 03:25:45

标签： information-retrieval

有没有人知道脚本/食谱/图书馆，以便在网站上找到最相关的联系信息？

一些可能的情况：

在个人网页上查找联系电话号码
在博客上查找所有者电子邮件地址
查找联系页面的网址

2 个答案:

答案 0 :(得分：2)

结帐WSO2's Mashup Server。您可以在本地计算机上运行它，并按照scraping的教程进行操作。您可以将所需的动态参数传递到scraper的<http>元素中，以遍历运行相同scrape的多个站点，然后将所有内容推送到集合源（用于捕获信息或存储在WSO2服务器中的AJAX应用程序）。您可以使用XPath和XSLT编写非常复杂的搜索模式来捕获所需的信息。

我没有足够的信息来描述您正在寻求帮助编写脚本的具体网站，但是无论如何，在获得您想要的结果之前，需要进行大量的反复试验。< / p>

快乐刮！

答案 1 :(得分：1)

我不知道有任何库这样做。

嗯，我会使用正则表达式来匹配电话号码和电子邮件地址，再加上一个遍历网站的网络蜘蛛，然后是一种对联系信息进行排名的方法。

通常情况下，联系信息也会与少数常用标签之一合作，例如“支持”，“支持电子邮件”，“销售”等。可能会有十几个版本的这些标签将涵盖95％的所有标签。英文网站。

所以，基本上我首先要构建一个简单的递归网络蜘蛛，它遍历给定域中的所有可公开访问的页面，解析HTML以查找电子邮件地址和电话号码，并列出它们，然后根据它们进行排名关于它们是否列在任何常用标签附近。

它不会是完美的，但是再一次，这是算法价值的一部分 - 让它变得更聪明，并随着时间的推移进行调整，直到它变得更好。