Facebook,Slack或其他社交网络如何识别页面内容?

时间:2017-06-01 02:33:50

标签: node.js facebook algorithm

我想知道Facebook,Google,Slack或任何其他社交网络如何识别当前发布的网页的内容? 任何时候,当您向某个页面添加链接(例如照片页面)时,它会自动创建一个包含该页面图像和标题的预览...

我正在尝试使用NodeJS创建类似的功能......

有什么想法吗? TNX。

enter image description here

1 个答案:

答案 0 :(得分:1)

that page的来源中查看<meta>og:标记,其中包含<meta content='Group of friends having fun on the seashore' property='og:title'> <meta content='Group of friends having fun on the seashore' property='og:description'> <meta content='https://drscdn.500px.org/photo/203795373/q%3D80_m%3D2000_k%3D1/a91b87d68203d5306a1e857494a0662e' property='og:image'>

corpus = corpus.str.lower().str.extract(
    '(university|academics|qualifications).*?(\d{4})', expand=False)

他们是Open Graph protocol的一部分,您可以在npm上查找Open Graph包。这是一个:https://www.npmjs.com/package/open-graph