我需要制作能够使用英语单词的标记器。
目前,我坚持使用可以成为url表达式一部分的字符。
例如,如果字符':','?','='是网址的一部分,我就不应该真正对其进行细分。
我的qns是,这可以用正则表达式来表达吗?我有正则表达式
\b(?:(?:https?|ftp|file)://|www\.|ftp\.)
(?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#/%=~_|$?!:,.])*
(?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[A-Z0-9+&@#/%=~_|$])
来自here
但我不知道如何将所有内容分段,如果字符在上面的表达式中被发现,请不要在它们之间插入空格。
帮助!
答案 0 :(得分:0)
我会通过使用不同的正则表达式进行扫描,将匹配放入数组,从字符串中删除这些匹配,然后正常执行标记生成器来解决此问题。