Question

我想使用XML包进行webcrawl this link。问题是数据不是自动生成的。这段HTML生成表：

<table width="1280px" id="maintable">
<tr id="tabletoggles">
<td>&nbsp;</td>
<td id="tablelabel">&nbsp;</td>
<td id="abovestats" class="abovestats" align="right">
&nbsp;&nbsp;&nbsp;<span class="revscore likelink"></span>
&nbsp;&nbsp;&nbsp;<b>Stats:</b>&nbsp;
<span class="statso stattab">Serve</span>&nbsp;|&nbsp;<span class="statsr stattab likelink">Return</span>&nbsp;|&nbsp;<span class="statsw stattab likelink">Raw</span>
</td></tr>
<tr>
<td id="footer" class="footer">&nbsp;</td>
<td colspan="2" id="stats" class="stats"><table id="matches"></table></td>
</tr>
<tr>
<td id="belowmenus">&nbsp;<br/>&nbsp;<br/>&nbsp;<br/>&nbsp;<br/>&nbsp;</td>
<td colspan="2" id="belowmatches">&nbsp;</td>
</tr>
</table></div>
</div>

在这段HTML上使用XML格式的readHTMLTable时，我只会得到无意义的值：

readHTMLTable("http://www.tennisabstract.com/cgi-bin/player.cgi?p=NovakDjokovic&f=ACareerqq",which = 3)

V1         V2
1 Â
2 Â Â Â Â Â   Â

如何检索包含所有数据的“完整链接”？我可以使用Firebug手动为每个页面执行此操作，但我想要一个可以同时检索多个网址的解决方案。

Answer 1

我认为这是由于缺少UTF8编码。

您使用什么语言来获取此数据？

如果您使用PHP来获取数据，我建议使用

header('Content-Type: text/html; charset=utf-8');

在整个代码之前。

生成所有数据HTML

1 个答案: