本地存储网站的字频率计数器

时间:2012-10-04 23:26:18

标签: python html

我有一个本地存储的半大型网站(使用httrack从服务器中删除)。这个特定网站的目录结构有几个文件夹/子文件夹以及大量的html文件。我想知道是否有任何工具(它可以是任何东西:脚本,c ++ / c代码等),这将允许我在所有html文件中生成单个字频率计数器表。 这里的诀窍是我只对计算实际内容单词感兴趣(即,不是html代码,尽管如果是这样的话可以在以后轻松删除)。 任何建议都非常感谢!

2 个答案:

答案 0 :(得分:3)

删除html代码后,请使用collections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

如果你没有办法剥离html,请查看lxml这样做

希望这有帮助

答案 1 :(得分:2)

http://www.hermetic.ch/wfca/wfca.htm查看高级版密码字频率计数器,它可扫描多个文件并删除HTML标记。不是免费的,但可以很好地计算HTML文件中的单词。甚至是子文件夹。