所以我有一个文件(纯文本),我试图从中提取所有的IP地址。我能够使用正则表达式提取它们,但它也抓取了大量的版本号。我尝试使用string.find()
,但它要求我能够找到用于行尾的转义字符(IP地址始终是行中的最后一个)以及用于结尾的转义字符我不知道这条线。任何人都知道如何将这些地址拉出来?
答案 0 :(得分:3)
如果您的地址始终位于一行的末尾,则锚定在该行:
ip_at_end = re.compile(r'(?:[0-9]{1,3}\.){3}[0-9]{1,3}$', re.MULTILINE)
这个正则表达式只匹配一行末尾的虚线四边形(4组数字,中间有点)。
演示:
>>> import re
>>> ip_at_end = re.compile(r'(?:[0-9]{1,3}\.){3}[0-9]{1,3}$', re.MULTILINE)
>>> example = '''\
... Only addresses on the end of a line match: 123.241.0.15
... Anything else doesn't: 124.76.67.3, even other addresses.
... Anything that is less than a dotted quad also fails, so 1.1.4
... does not match but 1.2.3.4
... will.
... '''
>>> ip_at_end.findall(example)
['123.241.0.15', '1.2.3.4']
答案 1 :(得分:2)
这将匹配并验证ipv4地址,并确保各个octect在0-255范围内
(?:([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])
是的,我意识到OP要求提供Python解决方案。此PHP解决方案仅用于显示表达式的工作原理
<?php
$sourcestring="this is a valid ip 12.34.56.78
this is not valid ip 12.34.567.89";
preg_match_all('/(?:(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}(?:[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])/i',$sourcestring,$matches);
echo "<pre>".print_r($matches,true);
?>
$matches Array:
(
[0] => Array
(
[0] => 12.34.56.7
)
)