我正在尝试检索包含该网站中的单词的段落。问题我不知道在单词后面会有多少单词,所以我需要迭代它。
import urllib.request
import re
url = "http://www.cnn.com"
request = urllib.request.Request(url)
html_content = urllib.request.urlopen(request)
mystring=html_content.read().decode('utf-8')
m = re.search('CNN\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s(\w+)',mystring)
print (m.group(0))
在这个例子中,我从CNN获得了关于韩国关键词的新闻,例如我希望将所有段落到第一段(。)或者让我们说出标点符号。
答案 0 :(得分:1)
我不知道这是否真的解决了你的问题。如果您希望将文本拆分成句子,请使用:
re.split(r'[\.\!]', text)
如果您只想要文本的第一句话,请使用:
re.match(r'.*[\.\!]', text
点表示每个角色都匹配。星号是零或更多出现的量词。括号包含最后一个字符的集合,即点或感叹号。
如果你想找到包含某个关键字的每个句子,请使用:
re.findall(r'[^\.\!]*KEYWORD[^\.\!]*[\.\!]', text)
匹配字符集开头的抑扬符表示除之外的每个字符。