网页上的字数统计

时间:2013-03-30 13:30:37

标签: python nlp web-crawler beautifulsoup

我正在寻找一种方法来提取任意网站上的单词的基本统计数据(总计数,密度,链接数,hrefs),理想情况下是基于Python的解决方案。

虽然很容易使用BautifulSoup解析特定网站并确定大部分内容的位置,但它要求您在处理之前在DOM树中定义内容的位置。这对于hrefs或任何arbitraty标签来说都很容易,但在确定其余数据(未包含在明确定义的标记中)的位置时会变得更加复杂。

如果我理解正确,谷歌(GoogleBot?)等人使用的机器人能够从任何网站提取数据以确定关键字密度。我的场景类似,获取与定义网站内容的词相关的信息(即删除js,链接和填充后)。

我的问题是,是否有任何库或网络API可以让我从任何给定页面获取有意义单词的统计数据?

2 个答案:

答案 0 :(得分:2)

没有API,但可以使用很少的库作为工具。

你应该计算有意义的单词并按时记录。

你也可以从这样的事情开始:

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

答案 1 :(得分:0)

有多个库处理更高级的网络文章处理,这个问题应与this one重复。