许多网页(Facebook,Google +等)都有一个功能,可以创建包含标题,图片和链接中某些文字的摘要。我试图找出是否有任何关于如何执行此类功能的库或指南,但我的搜索结果根本没有帮助。
我知道我可以解析页面的html并提取我想要的元素但我认为应该有一些标准来完成这个(也许还有如何创建对这种友好的页面功能性。
任何有良好联系的人会指出我正确的方向吗? Javascript或.Net是我最喜欢的选择,但我也可以自己实现。
答案 0 :(得分:1)
对于“也许还有如何创建对这种功能友好的页面。”部分:
您可能正在搜索open graph protocol:
<html xmlns:og="http://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="movie" />
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>
我认为这是facebook看起来的第一个地方。但是,当这些标签丢失时,facebook似乎有自己的算法来检测页面中最相关的部分。
答案 1 :(得分:0)
许多页面(Facebook,谷歌+等)都有一个创建一个的功能 带有标题,图像和链接中的一些文本的摘要。我试过了 找出是否有任何关于如何执行此操作的库或指南 一种功能,但我的搜索结果根本没有帮助。
这样的功能通常使用某种“爬行”来构建,这意味着您的脚本会打开链接并查看其数据。就像你自己建议一样。
我知道我可以解析页面的html并提取元素 我想,但我认为应该有一些标准 这样做(也许还有如何创建对此友好的页面 功能性。
标准方式是大多数搜索引擎的方式,例如Google。您可以从网站标题获取标题,如果有,则从描述中获取描述。现在大多数搜索引擎都会忽略描述元数据,而是尝试制作自己的摘要。
通常通过查找标题(h1,h2等)和段落来完成。
为了使网站“友好”进行这类抓取,您可以根据网络标准(W3C)构建网站。
任何有良好联系的人都会指出我的权利 方向? Javascript或.Net是我的首选,但我可以 也是自己实现的。
语言真的无关紧要,只要它能够做一些基本的HTTP-GET。