您好我以前从未处理过regex,而且我正在尝试使用Python和NLTK预处理一些原始文本。 当我尝试使用以下方式对文档进行标记:
tokens = nltk.regexp_tokenize(corpus, sentence_re)
sentence_re = r'''(?x) # set flag to allow verbose regexps
([A-Z])(\.[A-Z])+\.? # abbreviations, e.g. U.S.A.
| \w+(-\w+)* # words with optional internal hyphens
| \$?\d+(\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
| \#?\w+|\@?\w+ # hashtags and @ signs
| \.\.\. # ellipsis
| [][.,;"'?()-_`] # these are separate tokens
| ?:http://|www.)[^"\' ]+ # websites
'''
它无法将所有网站作为一个单一标记:
print toks[:50]
['on', '#Seamonkey', '(', 'SM', ')', '-', 'I', 'had', 'a', 'short', 'chirp', 'exchange', 'with', '@angie1234p', 'at', 'the', '18thDec', ';', 'btw', 'SM', 'is', 'faster', 'has', 'also', 'an', 'agile', '...', '1', '/', '2', "'", '...', 'user', 'community', '-', 'http', ':', '/', '/', 'bit', '.', 'ly', '/', 'XnF5', '+', 'ICR', 'http', ':', '/', '/']
任何帮助都非常有用。非常感谢!
-Florie
答案 0 :(得分:3)
在此标记器中,RegularExpressions用于指定要从文本中提取的标记的外观。 我有点困惑你上面使用的许多正则表达式中的哪一个,但是对于非空白令牌的非常简单的标记化你可以使用:
>>> corpus = "this is a sentence. and another sentence. my homepage is http://test.com"
>>> nltk.regexp_tokenize(corpus, r"\S+")
['this', 'is', 'a', 'sentence.', 'and', 'another', 'sentence.', 'my', 'homepage', 'is', 'http://test.com']
相当于:
>>> corpus.split()
['this', 'is', 'a', 'sentence.', 'and', 'another', 'sentence.', 'my', 'homepage', 'is', 'http://test.com']
另一种方法可能是使用nltk函数sent_tokenize()和nltk.word_tokenize():
>>> sentences = nltk.sent_tokenize(corpus)
>>> sentences
['this is a sentence.', 'and another sentence.', 'my homepage is http://test.com']
>>> for sentence in sentences:
print nltk.word_tokenize(sentence)
['this', 'is', 'a', 'sentence', '.']
['and', 'another', 'sentence', '.']
['my', 'homepage', 'is', 'http', ':', '//test.com']
虽然如果你的文字包含很多网站网址,这可能不是最好的选择。可以找到有关NLTK中不同标记器的信息here。
如果您只想从语料库中提取网址,可以使用这样的正则表达式:
nltk.regexp_tokenize(corpus, r'(http://|https://|www.)[^"\' ]+')
希望这会有所帮助。如果这不是您正在寻找的答案,请尝试更准确地解释您想要做什么以及您希望您的令牌看起来如何(例如您想要的示例输入/输出),我们可以提供帮助找到正确的正则表达式。