在URL上找到公司名称

时间:2009-11-10 12:50:14

标签: web web-scraping

鉴于知名公司的网址(例如http://mcdonalds.com/),您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”)?

由于

编辑:有人投票决定关闭这个问题,所以也许我需要解释一下这个动机。我有一大堆公司网址,我希望使用Google地图查找有关每家公司的数据。使用公司名称搜索Google地图比使用网址更好。

删除'http'和'com'在很多情况下都有效,特别是对于知名公司,但不是全部。我发现whois记录不是很有帮助。

我希望有一些公共数据库匹配公司的URL,但到目前为止还没有遇到过。

7 个答案:

答案 0 :(得分:1)

您需要创建自己的查找表:您必须尝试从URL中的html解析此信息以获取最准确的数据,例如:获取Html页面标题,或查找版权消息?

答案 1 :(得分:1)

很可能他们会在<title/>元素中拥有它。解析此问题并将其与网站的域名进行比较。如果存在重大重叠,则为您的匹配。如果没有,请在标题上尝试一些启发式方法(比如名称就是>>之前的所有内容)。

如果它是一家规模较大的公司,那么您也可以幸运地查看其域名的NIC条目(也称为Whois)。

答案 2 :(得分:1)

Whois数据库可能会有所帮助,但总有一些边缘情况需要你付出更多努力。

答案 3 :(得分:1)

如果你想要准确,我会说亚马逊机械土耳其人。

答案 4 :(得分:1)

尝试使用cURL和DOMDocument。

loadHTML($结果);     $ title = $ dom-&gt; getElementsByTagName(“title”);     echo $ title-&gt; item(0) - &gt; nodeValue; ?&GT;

查看元标记

答案 5 :(得分:1)

另一种选择是使用API​​,例如https://developer.tuxx.co.uk/api-overview/company-name-api。在这里,您可以输入一个URL,它会提取最可能的公司名称。

答案 6 :(得分:0)

您可以使用whois信息。应该有图书馆让你以干净的方式做到这一点。你没有提到你将使用什么类型的技术......