Python中这些符号的含义是什么?

时间:2016-04-26 04:46:02

标签: python regex

有人可以解释为什么有些人在他们的代码中使用这种符号吗?这对我来说很困惑,也许对那里的所有新手来说都很困惑。

我正在学习Python,我上了一堂课,我应该建立一个网络爬虫(蜘蛛),在这个例子中,他们只使用如何以特定的方式从特定的网址中获取数据,我在互联网上寻找一般方式,发现这个代码有很多符号,我知道其中的一些,但其余我不知道这里是我用符号找到的代码块

import sys, thread, Queue, re urllib, urlparse, time, os
dupcheck = set()
q=Queue.Queue(100)
q.put(sys.argv[1])
def queueURLs(html,originalink):
for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):)

这样的符号是什么^&gt;代码中的意思  我知道这是一个锚点  什么是href代表但这些符号令人困惑

3 个答案:

答案 0 :(得分:3)

它们是regular expressions,您可能不应该使用它们解析HTML。

答案 1 :(得分:0)

这些符号在字符串中使用时在python中没有特定含义。

但是,在传递给处理re等正则表达式的模块的字符串中使用时,它们意味着什么。

答案 2 :(得分:0)

其他答案已经提到使用'symbols'(读:运算符)来定义正则表达式。对于有问题的行:

for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):)

对于正则表达式,使用集合定义中的^字符,即[^abcd]仅在字符不是'a','b','c'或'd'时表示匹配

有关正则表达式及其在Python中的用法的更多信息,请参阅https://docs.python.org/2/library/re.html