大家好。
我有一个html文件,我将其转换为纯文本文件,我想从该文本文件中提取所有完整的网站链接,并将其输出到新的文本文件中。
文件看起来像这样:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>List</title>
<style type="text/css">
body {
background-attachment:scroll;
background-color:#F2F2F2;
background-position:50% 0;
}
BLAH BLAH BALH
<tr>
<td>Website Name</td>
<td><a href="http://websitename.com/link">link to site</a></td>
</tr>
<tr>
<td>Website name 2</td>
<td><a href="http://websitename2.com/link">link to site 2</a></td>
</tr>
<tr>
<td>Website name 3</td>
<td><a href="http://websitename3.com/link">link to site 3</a></td>
</tr>
ETC ETC ETC
所以我想得到一个看起来像这样的新文本文件:
http://websitename.com/link
http://websitename2.com/link
http://websitename3.com/link
所以基本上所有文本之间
<td><a href=" and ">
应将其复制到新的文本文件中,并且每个网站必须位于新行中。
我非常感谢任何人可以给我的帮助。