根据字体和字体大小刮取网页

时间:2015-07-03 10:57:44

标签: html fonts web-scraping

HTML文本抓取功能可以在网络中找到各种库。我试图从各种HTML页面解析网页的最大标题(标题) - 只有那个。

我试图从几百页(它可以是产品页面或文章页面等)自动检测项目的主标题。如果有一种方法可以根据网页中可用文本的字体和字体大小做出解析决定,那就太好了。由于主标题几乎总是网页中字体最大的文本,因此这些信息可以让我对如何找到标题给出很多见解。

所以问题是,有什么办法可以实现这一目标吗?

1 个答案:

答案 0 :(得分:1)

假设你可以这样做like this,但这是一项非常耗费资源的任务,因为你遍历了正文中所有 html元素。

var text,
    size = 0;

$("body, body *").each(function() {
    var f_size = parseInt($(this).css("fontSize"));
    if (size<f_size) {
        text = $(this).text();
        size = f_size;
    }
    console.log(this.tagName + " " + f_size);
});