一个人应该如何合理地处理UTF-8中的字符组合

时间:2019-05-21 14:15:46

标签: html utf-8

我正在编写一个具有用户聊天功能的网站。 在某个时候,用户决定使用直径绘制每个人的屏幕。​​

作为回应,我删除了所有不在ASCII字符范围内的文本。我想重新启用UTF-8,但是我不知道如何处理合并标记(UTF-8字符会修改其旁边的字符)。 从下面的示例中可以看到,Stack Overflow无法解决此问题。

恶意输入t̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀̀è̀̀̀̀̀̀̀x̀̀̀̀̀̀̀̀̀̀t̀̀̀̀̀̀̀̀̀̀̀̀̀

我觉得只允许使用1个组合标记,但是这对我来说确实是一件非常麻烦的事情,我不知道是否有任何语言使用2或3个组合字符。我想象韩国人广泛使用它们。

这似乎应该是一个已解决的问题,但是我无法获得有关该主题的任何有用信息。

0 个答案:

没有答案