标签: r web-scraping rstudio
我仍在使用我的通用新闻网络刮刀项目,并且遇到了一个我无法理解的奇怪的事情(再次)。使用RStudio我正在剥离HTML以保留纯ASCII并将其保存为CSV文件。但在该文件中,似乎存在随机虚假字符。
例如:“at large. And what”(Â是虚假角色)。
at large. And what
将CSV加载到RStudio中,它显示的区别与显示为红色有界中点的字符不同。
任何人都可以了解这可能是什么,甚至更好地如何在HTML中找到它并gsub出来?