如何计算PostgreSQL中纯文本的单词?

时间:2018-03-20 13:38:06

标签: sql postgresql plaintext

我在postgres 9.5数据库中有一些带有html字符串的列。我想计算没有html标签及其值的单词,以获得每行的纯文本的长度。

是否有存储过程或其他方法来执行此操作?

修改
现有示例文本在一个字段中:

<p>Lorem Ipsum: </p><p><br/></p><p align="center"><img src="d9b4c473-08ac-4cd8-883d-86ac30ee9044.png" width="287" height="192"/></p><p><br/></p><p>Lorem ipsum dolor sit amet, <span style="font-weight:bold;color:#86b920">consetetur</span> sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut l. </p><p><br/></p><p><br/></p><p><br/></p>

本文的预期输出:

Lorem Ipsum: Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut l.

充其量只是一个字数为此文字的附加列

1 个答案:

答案 0 :(得分:0)

你可以使用regexp_split_to_table来做 - 使用正确的正则表达式,你可以打破html中的所有单词并将它们作为表格返回。