有人可以解释为什么有些人在他们的代码中使用这种符号吗?这对我来说很困惑,也许对那里的所有新手来说都很困惑。
我正在学习Python,我上了一堂课,我应该建立一个网络爬虫(蜘蛛),在这个例子中,他们只使用如何以特定的方式从特定的网址中获取数据,我在互联网上寻找一般方式,发现这个代码有很多符号,我知道其中的一些,但其余我不知道这里是我用符号找到的代码块
import sys, thread, Queue, re urllib, urlparse, time, os
dupcheck = set()
q=Queue.Queue(100)
q.put(sys.argv[1])
def queueURLs(html,originalink):
for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):)
这样的符号是什么^&gt;代码中的意思 我知道这是一个锚点 什么是href代表但这些符号令人困惑
答案 0 :(得分:3)
它们是regular expressions,您可能不应该使用它们解析HTML。
答案 1 :(得分:0)
这些符号在字符串中使用时在python中没有特定含义。
但是,在传递给处理re等正则表达式的模块的字符串中使用时,它们意味着什么。
答案 2 :(得分:0)
其他答案已经提到使用'symbols'(读:运算符)来定义正则表达式。对于有问题的行:
for url in re.findall('"'<a[^>]+href["'](.`[^"']+)["']'"', html,re.I):)
对于正则表达式,使用集合定义中的^
字符,即[^abcd]
仅在字符不是'a','b','c'或'd'时表示匹配
有关正则表达式及其在Python中的用法的更多信息,请参阅https://docs.python.org/2/library/re.html。