所以我只是尝试,尝试使用python解析网络,我想我会尝试制作一个脚本,搜索我最喜欢的链接,在线观看节目。我现在尝试通过sidereel.com进行我的程序搜索,以获得与我想要的节目的良好链接并返回给我链接。我知道该网站以下列格式保存链接:
watch-freeseries.mu'then一些长字符串,我需要忽略后跟'14792088'
所以我需要做的是在网站的txt文件中找到这个字符串,只返回字符串末尾的8个数字。我不知道如何获得数字,我需要它们,因为它们是链接号。任何帮助将不胜感激
答案 0 :(得分:2)
您可以使用regular expression来轻松完成此操作。
>>> import re
>>> text = "watch-freeseries.mu=lklsflamflkasfmsaldfasmf14792088"
>>> expr = re.compile("watch\-freeseries\.mu.*?(\d{8})")
>>> expr.findall(text)
['14792088']
表达方式的细分:
watch\-freeseries\.mu
- 匹配预期表达式的开头。通过在\
前加上任何可能的特殊字符来逃避。
.*?
- 匹配任何角色。 .
表示任何字符,*
表示一个接一个地出现无限次。 ?
是执行非贪婪匹配,以便在同一个字符串中显示两个或多个网址时匹配不会重叠。
(\d{8})
- 匹配并保存最后8位
注意:如果您尝试解析网页中的链接,则有更简单的方法。我特别在BeautifulSoup包中看到了很多关于StackOverflow的建议。我自己从未使用过YMMV。