Question

我正在寻找一种方法来提取任意网站上的单词的基本统计数据（总计数，密度，链接数，hrefs），理想情况下是基于Python的解决方案。

虽然很容易使用BautifulSoup解析特定网站并确定大部分内容的位置，但它要求您在处理之前在DOM树中定义内容的位置。这对于hrefs或任何arbitraty标签来说都很容易，但在确定其余数据（未包含在明确定义的标记中）的位置时会变得更加复杂。

如果我理解正确，谷歌（GoogleBot？）等人使用的机器人能够从任何网站提取数据以确定关键字密度。我的场景类似，获取与定义网站内容的词相关的信息（即删除js，链接和填充后）。

我的问题是，是否有任何库或网络API可以让我从任何给定页面获取有意义单词的统计数据？

Answer 1

没有API，但可以使用很少的库作为工具。

你应该计算有意义的单词并按时记录。

你也可以从这样的事情开始：

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

Answer 2

有多个库处理更高级的网络文章处理，这个问题应与this one重复。

网页上的字数统计

2 个答案: