Question

首先，作为用户，我是社区新手，我想说这是一个很棒的用户。

我的问题是，我想从<a href=""元素中获取一个网址，使用<alt="new">或该<td>部分中使用的图片名称来自每日更改的网页不属于我。

到目前为止，我编写了一些代码，用wget将页面下载到文本文件，然后搜索图像或alt变量。即使它给我带来了搜索项目存在的部分，它也不包括我需要的<a href部分位于图像之前。

编辑：我设法获得下面的行，我只需要使用批处理获取内部网址，或使用javascript重定向到它，但由于标题和网址发生了变化，因此具有挑战性。有什么帮助吗？

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>

Answer 1

如果我理解你，你想从<a href=""中包含的HTML文件链接中获取？我想到的第一个解决方案是下载整个HTML并使用python和BeautifulSoup库来解析这个文件并获得所有'hrefs'。这是你的意思吗？

Answer 2

使用您提供的代码：

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

注意双引号，它们对于删除html标记分隔符<和>至关重要，因为它们是重定向字符，除非被双引号括起，否则会导致错误。

您可以将上述代码直接复制并粘贴到命令提示符中进行测试。

使用批量导出html页面的特定部分

2 个答案: