通过nodejs从页面获得规范化或查找标题

时间:2013-12-20 07:03:17

标签: javascript algorithm node.js web-crawler google-search

我使用var tmp_title = $('title').text();cheerio.js一起从页面获取标题。

问题,是否有任何可以标准化字符串或删除html实体,如\n\t\n等?

实施例

\n\t defense.gov news article: thousands lay wreaths at arlington cemetery gravesites\n

Thousand lay wreaths at arlington cemetery gravesites

或者有没有办法从页面获取标题?现在谷歌如何标题为<h3>标签或谷歌抓取工具从<title>标签获取标题并删除并标准化标题以获得可读的标题字符串?

1 个答案:

答案 0 :(得分:1)

我会在以下之间做一些分析:

  • head&gt;标题
  • og:页面的元数据:$('meta [name =“og:title”])。attr('content')
  • hN(降级层次结构以获得第一个hN,这是页面上唯一的一个)

然后“分析”可以像

一样基本
  • 修整
  • 在所有3个选项之间采用最小的常用字符串序列

或者,您不介意依赖某些saas网络服务,您可以查看http://www.diffbot.com/