代码:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
dasdfasd
</title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body id="eheth" class="sdfgdf">
<div id="wrapper">
<div class="container">
<div class="row">
</div>
</div>
</div>
<div id="mainNav">
<div class="container">
<div class="row">
</div>
</div>
</div>
</div>
<script type="text/javascript">
</script>
<div id="MainContent_0">
blah blah blah
</div>
<div class="video"> </div>
<div id="MainContent_2">
blah blah blah 2
</div>
</body>
</html>
除了<div id=MainContent_0>
和<div id=MainContent_2>
中的内容之外,我想删除所有内容。真实页面比这复杂得多,并且有更多页面与我想要做的相似,但是
我听说过simplehtmldom,但我无法弄清楚如何使用它。我希望它至少是半自动化的。
答案 0 :(得分:2)
使用xpath:
尝试此操作$ xmllint --html \
--xpath '//div[@id="MainContent_0" or @id="MainContent_2"]' file 2>/dev/null
<div id="MainContent_0">
blah blah blah
</div><div id="MainContent_2">
blah blah blah 2
</div>