Question

我需要制作能够使用英语单词的标记器。

目前，我坚持使用可以成为url表达式一部分的字符。

例如，如果字符'：'，'？'，'='是网址的一部分，我就不应该真正对其进行细分。

我的qns是，这可以用正则表达式来表达吗？我有正则表达式

\b(?:(?:https?|ftp|file)://|www\.|ftp\.)
  (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#/%=~_|$?!:,.])*
  (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[A-Z0-9+&@#/%=~_|$])

来自here

但我不知道如何将所有内容分段，如果字符在上面的表达式中被发现，请不要在它们之间插入空格。

帮助！

Answer 1

我会通过使用不同的正则表达式进行扫描，将匹配放入数组，从字符串中删除这些匹配，然后正常执行标记生成器来解决此问题。

有关正则表达式和标记化的问题

1 个答案: