从txt文件中提取字符串

时间:2013-01-26 21:41:22

标签: python string python-2.7 extract

所以我只是尝试,尝试使用python解析网络,我想我会尝试制作一个脚本,搜索我最喜欢的链接,在线观看节目。我现在尝试通过sidereel.com进行我的程序搜索,以获得与我想要的节目的良好链接并返回给我链接。我知道该网站以下列格式保存链接:

watch-freeseries.mu'then一些长字符串,我需要忽略后跟'14792088'

所以我需要做的是在网站的txt文件中找到这个字符串,只返回字符串末尾的8个数字。我不知道如何获得数字,我需要它们,因为它们是链接号。任何帮助将不胜感激

1 个答案:

答案 0 :(得分:2)

您可以使用regular expression来轻松完成此操作。

>>> import re
>>> text = "watch-freeseries.mu=lklsflamflkasfmsaldfasmf14792088"
>>> expr = re.compile("watch\-freeseries\.mu.*?(\d{8})")
>>> expr.findall(text)
['14792088']

表达方式的细分:

watch\-freeseries\.mu - 匹配预期表达式的开头。通过在\前加上任何可能的特殊字符来逃避。

.*? - 匹配任何角色。 .表示任何字符,*表示一个接一个地出现无限次。 ?是执行非贪婪匹配,以便在同一个字符串中显示两个或多个网址时匹配不会重叠。

(\d{8}) - 匹配并保存最后8位

注意:如果您尝试解析网页中的链接,则有更简单的方法。我特别在BeautifulSoup包中看到了很多关于StackOverflow的建议。我自己从未使用过YMMV。