我正在尝试提取没有站点地图的网站的网址。我正在使用Web Harvest tool
我不知道Java或编码。有人可以帮我使用这个工具。
我希望它在特定网站(例如example.com)上运行,并从该网站中提取每个网址。
答案 0 :(得分:1)
Example.com不是一个很好的例子,因为它只有一个链接! :)
这是我的代码,带有一些注释:
<?xml version="1.0" encoding="UTF-8"?>
<config>
<!-- 1: provide inputs -->
<script><![CDATA[
url="http://stackoverflow.com/questions/17635763/trying-to-extract-urls-from-a-website-using-web-harvest";
output_path = "C:/webharvest/";
file_name = "urllist.txt";
output_file = output_path + file_name;
]]></script>
<!-- 5 : save the resulting list in a variable -->
<var-def name="urls">
<!-- 4 : select only links (outputs a list variable) -->
<xpath expression='//a/@href'>
<!-- 3 : convert it to XML, for querying -->
<html-to-xml>
<!-- 2 : load the page -->
<http url="${url}"/>
</html-to-xml>
</xpath>
</var-def>
<!-- 7: write to output file -->
<file action="write" path="${output_file}">
<!-- 6 : convert the list variable into a string with each link on a new line -->
<text delimiter="${sys.cr}${sys.lf}">
<var name="urls" />
</text>
</file>
</config>
答案 1 :(得分:0)
您应该浏览http://web-harvest.sourceforge.net/manual.php的Web收获用户手册,其中包含多个示例。