RegexpTokenizer语法$ [\ d \。]?

时间:2017-05-13 10:40:34

标签: python regex nltk

我正在看这个例子

>>> tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
>>> tokenizer = RegexpTokenizer('\w+|\$[\d\.]+')
>>> tokenizer.tokenize(s)
['Good', 'muffins', 'cost', '$3.88', 'in', 'New', 'York', 'Please', 'buy', 'me', 'two', 'of', 'them', 'Thanks']
>>> tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
>>> tokenizer.tokenize(s)
['Good', 'muffins', 'cost', '$3.88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']

RegexpTokenizer语法和Python正则表达式之间有什么区别吗?例如,做什么:

$[\d\.] 

代表什么?从here我们了解到\d匹配任何十进制数字。

0 个答案:

没有答案