如何按程序检索网页的标题和摘要?

时间:2009-12-28 07:03:38

标签: html algorithm

就像digg所做的那样,当你提交新闻时,会自动检索标题和摘要,怎么做?

2 个答案:

答案 0 :(得分:5)

检索HTML并解析它。

标题来自<title>标记。 摘要可以来自:

  • <body>标记内可见文字的前几百个字符。
  • 说明<meta>标记。

如果网站提供了RSS源(您可以在<link rel="alternate" type="application/rss+xml">标签中找到),请使用其中的现场信息。

这个问题没有一个正确的答案。可能还有其他可能的策略。但这应该让你开始。

答案 1 :(得分:1)

标题很容易只是HTML的标题标记如果您使用某些搜索或上下文检索此摘要有点困难,您应该尝试根据搜索词的位置或相对于搜索词的位置生成摘要您正在显示此内容。例如,如果您显示此内容,因为我点击了“AI”标签,请向我显示一些与AI相关的页面。

在Digg标题和描述的情况下,海报可以在将其推送给每个人之前进行编辑。但是,如果页面具有描述的元标记,则它将预先填充该字段。他们使用以下元标记<meta name="description" content="blah blah blah"/>