尝试使用Web Harvest从网站中提取URL

时间:2013-07-14 01:33:08

标签: java webharvest

我正在尝试提取没有站点地图的网站的网址。我正在使用Web Harvest tool

我不知道Java或编码。有人可以帮我使用这个工具。

我希望它在特定网站(例如example.com)上运行,并从该网站中提取每个网址。

2 个答案:

答案 0 :(得分:1)

Example.com不是一个很好的例子,因为它只有一个链接! :)

这是我的代码,带有一些注释:

<?xml version="1.0" encoding="UTF-8"?>

<config>
        <!-- 1: provide inputs           -->  
        <script><![CDATA[
                url="http://stackoverflow.com/questions/17635763/trying-to-extract-urls-from-a-website-using-web-harvest";

                output_path = "C:/webharvest/"; 
                file_name = "urllist.txt";              
                output_file = output_path + file_name;                  

            ]]></script>

        <!-- 5 : save the resulting list in a variable       -->    
        <var-def name="urls">
            <!-- 4 : select only links (outputs a list variable)         -->    
            <xpath expression='//a/@href'>
                <!-- 3 : convert it to XML, for querying         --> 
                <html-to-xml>
                    <!-- 2 : load the page       -->  
                    <http url="${url}"/>
                </html-to-xml>
            </xpath>
        </var-def>

        <!-- 7: write to output file         -->  
        <file action="write" path="${output_file}">
            <!-- 6 : convert the list variable into a string with each link on a new line        -->  
            <text delimiter="${sys.cr}${sys.lf}">
            <var name="urls" />
            </text>
        </file>              

</config>

答案 1 :(得分:0)

您应该浏览http://web-harvest.sourceforge.net/manual.php的Web收获用户手册,其中包含多个示例。