我如何在PHP中获取任何URL的摘要?总而言之,我的意思与谷歌网络搜索结果中的网址描述类似。
这可能吗?是否已经有一些我可以插入的工具,所以我不必生成自己的摘要?
如果可能,我不想使用元数据描述。
-Dylan
答案 0 :(得分:2)
Google中显示的内容(通常)是META描述标记。如果你不想使用它,你可以改用页面标题。
答案 1 :(得分:1)
如果您不想使用元数据描述(顺便说一句,这正是它们的用途),您需要做大量的研究和工作。基本上,你必须猜测页面的哪个部分是内容,哪个只是导航/绒毛。事实上,谷歌确实如此;但请注意,从无用的绒毛中提取有价值的信息是他们的第一能力,他们十年来一直在研究和改进。
当然,您可以进行有根据的猜测(例如“查找带有ID或类maincontent
的元素”并从中获取第一段)并且可能会没问题。真正的问题是,您希望结果有多好? (Facebook有类似的链接到网站,有时摘要只是坚持广告是主要内容)。
答案 2 :(得分:0)
以下内容允许您解析页面title
标记的内容。注意:必须配置php以允许file_get_contents
检索URL。否则,您必须使用curl
来检索HTML页面。
$title_open = '<title>';
$title_close = '</title>';
$page = file_get_contents( 'http://www.domain.com' );
$n = stripos( $page, $title_open ) + strlen( $title_open );
$m = stripos( $page, $title_close);
$title = substr( $page, n, m-n );
答案 3 :(得分:0)
虽然我讨厌宣传服务但我发现了这个:
embed.ly
它有一个API,它返回一个包含您需要的所有数据的JSON。
但我仍然在寻找一个免费/开源库来做同样的事情。