Question

我有一个HTML文档mystory.html。本文件包含以下内容：

<body>
    <p>Hello World!</p>
    <p>This document holds seven words.</p>
</body>

我希望能够使用cmd + f并通过正则表达式找到所有非HTML标记的单词。我会通过包安装程序下载一个插件来计算HTML中的单词，但它不存在8（

我使用了以下正则表达式来尝试做类似的事情，但问题在于它计算正文中的bod，如果任何标记名称长度大于1，则正则表达式也会选择它。代码为(?:)[a-zA-Z']+(?!>)。这些标签都没有任何属性或css。基本上，我想计算文档中不是HTML TAGS的单词数。如果有人知道插件，我也会接受这个答案。

Answer 1

您可以使用正则表达式：

\b[\w']+\b(?!>)

字边界
后跟一个字
后跟单词边界
未跟>

这将返回7场比赛。

Sublime Text Html Word Counter

1 个答案: