使用批量导出html页面的特定部分

时间:2012-09-25 20:34:58

标签: javascript html batch-file automation

首先,作为用户,我是社区新手,我想说这是一个很棒的用户。

我的问题是,我想从<a href=""元素中获取一个网址,使用<alt="new">或该<td>部分中使用的图片名称来自每日更改的网页不属于我。

到目前为止,我编写了一些代码,用wget将页面下载到文本文件,然后搜索图像或alt变量。即使它给我带来了搜索项目存在的部分,它也不包括我需要的<a href部分位于图像之前。

编辑:我设法获得下面的行,我只需要使用批处理获取内部网址,或使用javascript重定向到它,但由于标题和网址发生了变化,因此具有挑战性。有什么帮助吗?

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>

2 个答案:

答案 0 :(得分:0)

如果我理解你,你想从<a href=""中包含的HTML文件链接中获取? 我想到的第一个解决方案是下载整个HTML并使用python和BeautifulSoup库来解析这个文件并获得所有'hrefs'。这是你的意思吗?

答案 1 :(得分:0)

使用您提供的代码:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

注意双引号,它们对于删除html标记分隔符<>至关重要,因为它们是重定向字符,除非被双引号括起,否则会导致错误。

您可以将上述代码直接复制并粘贴到命令提示符中进行测试。