Question

我正在尝试检索包含该网站中的单词的段落。问题我不知道在单词后面会有多少单词，所以我需要迭代它。

import urllib.request
import re
url = "http://www.cnn.com"
request = urllib.request.Request(url)
html_content = urllib.request.urlopen(request)
mystring=html_content.read().decode('utf-8')
m = re.search('CNN\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s(\w+)',mystring)
print (m.group(0))

在这个例子中，我从CNN获得了关于韩国关键词的新闻，例如我希望将所有段落到第一段（。）或者让我们说出标点符号。

Answer 1

我不知道这是否真的解决了你的问题。如果您希望将文本拆分成句子，请使用：

re.split(r'[\.\!]', text)

如果您只想要文本的第一句话，请使用：

re.match(r'.*[\.\!]', text

点表示每个角色都匹配。星号是零或更多出现的量词。括号包含最后一个字符的集合，即点或感叹号。

如果你想找到包含某个关键字的每个句子，请使用：

re.findall(r'[^\.\!]*KEYWORD[^\.\!]*[\.\!]', text)

匹配字符集开头的抑扬符表示除之外的每个字符。

为re.search python迭代单词

1 个答案: