R删除HTML中的奇数middledot

时间:2014-11-06 13:35:08

标签: r web-scraping rstudio

我仍在使用我的通用新闻网络刮刀项目,并且遇到了一个我无法理解的奇怪的事情(再次)。使用RStudio我正在剥离HTML以保留纯ASCII并将其保存为CSV文件。但在该文件中,似乎存在随机虚假字符。

例如:“at large.  And what”(Â是虚假角色)。

将CSV加载到RStudio中,它显示的区别与显示为红色有界中点的字符不同。

Funny RStudio red middle-dot

任何人都可以了解这可能是什么,甚至更好地如何在HTML中找到它并gsub出来?

0 个答案:

没有答案