我希望我的网站能够在用户将链接粘贴到帖子框时提取有关网页的信息,类似于Facebook。
我想知道像Google,Reddit和Facebook这样的网站是如何只使用网址检索缩略图,标题和说明的。
有人知道他们是怎么做到的吗?
答案 0 :(得分:0)
基本算法相当简单:获取页面,分析内容,提取文本和图像以及标题和其他内容,构建预览。 然而,特定用例存在很多困难。菜单,横幅和添加,文本结构 - 大量不同的细节,需要非常严格的处理。 AFAIK没有算法可以在100%的情况下解决这个问题(是的,谷歌和其他算法并不完美)。
关于Reddit。由于它是开源的,你可以找到它们是如何完成它的。 以下是您要查找的代码: https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py