我正在寻找一种方法来提取任意网站上的单词的基本统计数据(总计数,密度,链接数,hrefs),理想情况下是基于Python的解决方案。
虽然很容易使用BautifulSoup解析特定网站并确定大部分内容的位置,但它要求您在处理之前在DOM树中定义内容的位置。这对于hrefs或任何arbitraty标签来说都很容易,但在确定其余数据(未包含在明确定义的标记中)的位置时会变得更加复杂。
如果我理解正确,谷歌(GoogleBot?)等人使用的机器人能够从任何网站提取数据以确定关键字密度。我的场景类似,获取与定义网站内容的词相关的信息(即删除js,链接和填充后)。
我的问题是,是否有任何库或网络API可以让我从任何给定页面获取有意义单词的统计数据?
答案 0 :(得分:2)
没有API,但可以使用很少的库作为工具。
你应该计算有意义的单词并按时记录。
你也可以从这样的事情开始:
string Link= "http://www.website.com/news/Default.asp";
string itemToSearch= "Word";
int count = new Regex(itemToSearch).Matches(Link).Count;
MessageBox.Show(count.ToString());
答案 1 :(得分:0)
有多个库处理更高级的网络文章处理,这个问题应与this one重复。