我正在开发一个C#应用程序,它可以抓取网页的内容并返回页面的所有单词。我正在使用HTMLAGILITY包。
我想知道在抓取页面内容后,我怎么知道网页中出现了多少次单词。
答案 0 :(得分:0)
您可以将整个页面/网络请求视为字符串,并执行以下操作: https://msdn.microsoft.com/en-us/library/bb546166.aspx
它可能效率不高,它会搜索CSS类和其他所有内容,但它可能是一个起点。
否则,您需要使用敏捷包并清除每个敏捷包,并检查公共文本的每一点。