Question

所以我只是尝试，尝试使用python解析网络，我想我会尝试制作一个脚本，搜索我最喜欢的链接，在线观看节目。我现在尝试通过sidereel.com进行我的程序搜索，以获得与我想要的节目的良好链接并返回给我链接。我知道该网站以下列格式保存链接：

watch-freeseries.mu'then一些长字符串，我需要忽略后跟'14792088'

所以我需要做的是在网站的txt文件中找到这个字符串，只返回字符串末尾的8个数字。我不知道如何获得数字，我需要它们，因为它们是链接号。任何帮助将不胜感激

Answer 1

您可以使用regular expression来轻松完成此操作。

>>> import re
>>> text = "watch-freeseries.mu=lklsflamflkasfmsaldfasmf14792088"
>>> expr = re.compile("watch\-freeseries\.mu.*?(\d{8})")
>>> expr.findall(text)
['14792088']

表达方式的细分：

watch\-freeseries\.mu - 匹配预期表达式的开头。通过在\前加上任何可能的特殊字符来逃避。

.*? - 匹配任何角色。 .表示任何字符，*表示一个接一个地出现无限次。 ?是执行非贪婪匹配，以便在同一个字符串中显示两个或多个网址时匹配不会重叠。

(\d{8}) - 匹配并保存最后8位

注意：如果您尝试解析网页中的链接，则有更简单的方法。我特别在BeautifulSoup包中看到了很多关于StackOverflow的建议。我自己从未使用过YMMV。

从txt文件中提取字符串

1 个答案: