网络收获 - 抓一个网址

时间:2013-03-15 00:09:11

标签: java eclipse web web-scraping webharvest

我正在使用网络收获。但是,我想废弃网址中的数据:

  

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912

我的代码是:

<?xml version="1.0" encoding="UTF-8"?>

<config>
    <var-def name="google">
    <html-to-xml>
    <http url="http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=&timestamp=1363305908912"></http>
    </html-to-xml>
    </var-def>
</config>

但是我得到了:

  

对实体的引用Bezirke必须以';'

结束

我不明白网络收获是什么意思,用';'?

2 个答案:

答案 0 :(得分:1)

我对网络收获知之甚少,但他们的例子有:

<xpath expression="//a[@shape='rect']/@href">
    <html-to-xml>
        <http url="http://www.somesite.com/"/>
    </html-to-xml>
</xpath>

<http url =".." />

而你的代码有

<http url = ".."></http> 

也许这是你的问题?无需关闭标签

答案 1 :(得分:1)

您应该在网址中编码放大器,即。使用&更改每个&amp;