Facebook如何预取网址/ Feed内容?

时间:2009-06-24 02:55:39

标签: facebook

我在Facebook消息中发布了一个博客文章的网址 http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ 和Facebook内联标题和缩写文本,好像它从rss feed中获取它们一样 http://www.autoblog.com/rss.xml 但是当我提交链接时,博客帖子已经从Feed中过期了 - 我查了一下。

看这个截图: http://i43.tinypic.com/nwbu4m.jpg

是否使用了feedburner搜索?怎么能这样做呢?

欢呼声

1 个答案:

答案 0 :(得分:3)

我认为他们会进行一些高级搜索,寻找最重要的数据块和HTML并使用它。基本上,他们会快速分析所有内容,丢弃广告等,并使用大量的数据。

Digg也在做类似的事情。

我会这样做来实现它。

  1. 扫描元标记,RSS Feed标记和标题标记。
  2. 查找包含大量内容的大型“区域”。还包括p标记。根据他们满足的可能性对他们进行加权或评分。查找关键字css课程/ ID(例如,比“广告”或“导航”
  3. 更高的费率“内容”)
  4. 寻找大图片
  5. 存储有关该网站的信息以供将来使用和改进启发式
  6. 这一切都可能在服务器端完成,并使用AJAX提供给浏览器。