我知道这对你们大多数人来说都是非常基本的,但我没有找到答案,所以我不得不问!:)
问题是我在网页抓取CSV文件中收到的输出会返回奇怪的字符,例如\ u00F3等,用于西班牙语重音符号。我可能需要在我的代码结尾处做一些CSV,但我不知道是什么。
另一件事是,我只得到一个阵列,每个网站应该有一个阵列。
谢谢
代码:
url= "(the url of th website)"
page= Nokogiri::HTML(open(url))
description= page.css('div.post-body.entry-content').each do |line|
body << line.text.strip
end
puts body
# CSV
CSV.open("hello.csv", "w") do |file|
file << [body]
end
答案 0 :(得分:0)
我做到了!实际上我必须把以下内容放到最后:
CSV.open("hello.csv", "w+:UTF-16LE:UTF-8") do |file|
file << body
end