Question

我有一个本地存储的半大型网站（使用httrack从服务器中删除）。这个特定网站的目录结构有几个文件夹/子文件夹以及大量的html文件。我想知道是否有任何工具（它可以是任何东西：脚本，c ++ / c代码等），这将允许我在所有html文件中生成单个字频率计数器表。这里的诀窍是我只对计算实际内容单词感兴趣（即，不是html代码，尽管如果是这样的话可以在以后轻松删除）。任何建议都非常感谢！

Answer 1

删除html代码后，请使用collections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

如果你没有办法剥离html，请查看lxml这样做

希望这有帮助

Answer 2

在http://www.hermetic.ch/wfca/wfca.htm查看高级版密码字频率计数器，它可扫描多个文件并删除HTML标记。不是免费的，但可以很好地计算HTML文件中的单词。甚至是子文件夹。

本地存储网站的字频率计数器

2 个答案: