有没有人知道脚本/食谱/图书馆,以便在网站上找到最相关的联系信息?
一些可能的情况:
答案 0 :(得分:2)
结帐WSO2's Mashup Server。您可以在本地计算机上运行它,并按照scraping的教程进行操作。您可以将所需的动态参数传递到scraper的<http>
元素中,以遍历运行相同scrape的多个站点,然后将所有内容推送到集合源(用于捕获信息或存储在WSO2服务器中的AJAX应用程序)。您可以使用XPath和XSLT编写非常复杂的搜索模式来捕获所需的信息。
我没有足够的信息来描述您正在寻求帮助编写脚本的具体网站,但是无论如何,在获得您想要的结果之前,需要进行大量的反复试验。< / p>
快乐刮!
答案 1 :(得分:1)
我不知道有任何库这样做。
嗯,我会使用正则表达式来匹配电话号码和电子邮件地址,再加上一个遍历网站的网络蜘蛛,然后是一种对联系信息进行排名的方法。
通常情况下,联系信息也会与少数常用标签之一合作,例如“支持”,“支持电子邮件”,“销售”等。可能会有十几个版本的这些标签将涵盖95%的所有标签。英文网站。
所以,基本上我首先要构建一个简单的递归网络蜘蛛,它遍历给定域中的所有可公开访问的页面,解析HTML以查找电子邮件地址和电话号码,并列出它们,然后根据它们进行排名关于它们是否列在任何常用标签附近。
它不会是完美的,但是再一次,这是算法价值的一部分 - 让它变得更聪明,并随着时间的推移进行调整,直到它变得更好。