鉴于知名公司的网址(例如http://mcdonalds.com/),您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”)?
由于
编辑:有人投票决定关闭这个问题,所以也许我需要解释一下这个动机。我有一大堆公司网址,我希望使用Google地图查找有关每家公司的数据。使用公司名称搜索Google地图比使用网址更好。
删除'http'和'com'在很多情况下都有效,特别是对于知名公司,但不是全部。我发现whois记录不是很有帮助。
我希望有一些公共数据库匹配公司的URL,但到目前为止还没有遇到过。
答案 0 :(得分:1)
您需要创建自己的查找表:您必须尝试从URL中的html解析此信息以获取最准确的数据,例如:获取Html页面标题,或查找版权消息?
答案 1 :(得分:1)
很可能他们会在<title/>
元素中拥有它。解析此问题并将其与网站的域名进行比较。如果存在重大重叠,则为您的匹配。如果没有,请在标题上尝试一些启发式方法(比如名称就是>>
之前的所有内容)。
如果它是一家规模较大的公司,那么您也可以幸运地查看其域名的NIC条目(也称为Whois)。
答案 2 :(得分:1)
Whois数据库可能会有所帮助,但总有一些边缘情况需要你付出更多努力。
答案 3 :(得分:1)
如果你想要准确,我会说亚马逊机械土耳其人。
答案 4 :(得分:1)
尝试使用cURL和DOMDocument。
loadHTML($结果); $ title = $ dom-&gt; getElementsByTagName(“title”); echo $ title-&gt; item(0) - &gt; nodeValue; ?&GT;查看元标记
答案 5 :(得分:1)
另一种选择是使用API,例如https://developer.tuxx.co.uk/api-overview/company-name-api。在这里,您可以输入一个URL,它会提取最可能的公司名称。
答案 6 :(得分:0)
您可以使用whois信息。应该有图书馆让你以干净的方式做到这一点。你没有提到你将使用什么类型的技术......