有关正则表达式和标记化的问题

时间:2010-09-09 12:46:43

标签: python regex tokenize

我需要制作能够使用英语单词的标记器。

目前,我坚持使用可以成为url表达式一部分的字符。

例如,如果字符':','?','='是网址的一部分,我就不应该真正对其进行细分。

我的qns是,这可以用正则表达式来表达吗?我有正则表达式

\b(?:(?:https?|ftp|file)://|www\.|ftp\.)
  (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#/%=~_|$?!:,.])*
  (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[A-Z0-9+&@#/%=~_|$])

来自here

但我不知道如何将所有内容分段,如果字符在上面的表达式中被发现,请不要在它们之间插入空格。

帮助!

1 个答案:

答案 0 :(得分:0)

我会通过使用不同的正则表达式进行扫描,将匹配放入数组,从字符串中删除这些匹配,然后正常执行标记生成器来解决此问题。