我想使用XML包进行webcrawl this link。问题是数据不是自动生成的。这段HTML生成表:
<table width="1280px" id="maintable">
<tr id="tabletoggles">
<td> </td>
<td id="tablelabel"> </td>
<td id="abovestats" class="abovestats" align="right">
<span class="revscore likelink"></span>
<b>Stats:</b>
<span class="statso stattab">Serve</span> | <span class="statsr stattab likelink">Return</span> | <span class="statsw stattab likelink">Raw</span>
</td></tr>
<tr>
<td id="footer" class="footer"> </td>
<td colspan="2" id="stats" class="stats"><table id="matches"></table></td>
</tr>
<tr>
<td id="belowmenus"> <br/> <br/> <br/> <br/> </td>
<td colspan="2" id="belowmatches"> </td>
</tr>
</table></div>
</div>
在这段HTML上使用XML格式的readHTMLTable时,我只会得到无意义的值:
readHTMLTable("http://www.tennisabstract.com/cgi-bin/player.cgi?p=NovakDjokovic&f=ACareerqq",which = 3)
V1 V2
1 Â
2 Â Â Â Â Â Â
如何检索包含所有数据的“完整链接”?我可以使用Firebug手动为每个页面执行此操作,但我想要一个可以同时检索多个网址的解决方案。
答案 0 :(得分:0)
我认为这是由于缺少UTF8编码。
您使用什么语言来获取此数据?
如果您使用PHP来获取数据,我建议使用
header('Content-Type: text/html; charset=utf-8');
在整个代码之前。