首先,作为用户,我是社区新手,我想说这是一个很棒的用户。
我的问题是,我想从<a href=""
元素中获取一个网址,使用<alt="new">
或该<td>
部分中使用的图片名称来自每日更改的网页不属于我。
到目前为止,我编写了一些代码,用wget
将页面下载到文本文件,然后搜索图像或alt变量。即使它给我带来了搜索项目存在的部分,它也不包括我需要的<a href
部分位于图像之前。
编辑:我设法获得下面的行,我只需要使用批处理获取内部网址,或使用javascript重定向到它,但由于标题和网址发生了变化,因此具有挑战性。有什么帮助吗?
<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>
答案 0 :(得分:0)
如果我理解你,你想从<a href=""
中包含的HTML文件链接中获取?
我想到的第一个解决方案是下载整个HTML并使用python和BeautifulSoup库来解析这个文件并获得所有'hrefs'。这是你的意思吗?
答案 1 :(得分:0)
使用您提供的代码:
set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"
set "x=%x:<=%" & :: Remove Redirection Character
set "x=%x:>=%" & :: Remove Redirection Character
set x=%x:*href=% & :: Remove everything up till href=
set x=%x:~2% & :: Trim ="
set x=%x:"='% & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem % & :: Remove everything after URL
echo %x%
注意双引号,它们对于删除html标记分隔符<
和>
至关重要,因为它们是重定向字符,除非被双引号括起,否则会导致错误。
您可以将上述代码直接复制并粘贴到命令提示符中进行测试。