我有一个本地存储的半大型网站(使用httrack从服务器中删除)。这个特定网站的目录结构有几个文件夹/子文件夹以及大量的html文件。我想知道是否有任何工具(它可以是任何东西:脚本,c ++ / c代码等),这将允许我在所有html文件中生成单个字频率计数器表。 这里的诀窍是我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话可以在以后轻松删除)。 任何建议都非常感谢!
答案 0 :(得分:3)
删除html代码后,请使用collections.Counter
>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words
如果你没有办法剥离html,请查看lxml这样做
希望这有帮助
答案 1 :(得分:2)
在http://www.hermetic.ch/wfca/wfca.htm查看高级版密码字频率计数器,它可扫描多个文件并删除HTML标记。不是免费的,但可以很好地计算HTML文件中的单词。甚至是子文件夹。