应用错误收集

将ACCCEPTINVCHARS与远程主机配合使用

时间：2017-06-29 13:58:50

标签： amazon-ec2 utf-8 web-scraping jupyter-notebook amazon-redshift

我正在使用刮刀并使用EC2将数据上传到redshift。我不想先将数据上传到S3。我的代码在Jupyter Notebook中。但是，我得到“字符串包含无效或不支持的UTF8代码点。错误的UTF8十六进制序列：80（错误3）”错误，我看到很多其他人之前已经问过。我甚至在redshift上找到了一个使用远程桌面的页面。但是，正如我之前所说，我宁愿不通过S3。这可能吗？目前使用psycopg2连接数据库。我认为它不起作用，但我尝试在数据库用户/密码行之后放入acceptinvchars，并且它说ACCEPTINVCHARS没有定义。

1 个答案:

答案 0 :(得分：0)

如果要直接从笔记本复制数据到Redshift，则必须编写有效的INSERT语句并对Redshift中的现有表执行它们。但是，这种方法的吞吐量非常低。我不知道你打算写多少数据，但我想scrappers应该有更高的吞吐量。您可以先将Python脚本的输出写入同一EC2实例，然后使用COPY命令。

有关从EC2实例复制的更多信息：COPY from Remote Host (SSH)

至于你的错误，你的输入中可能有重音字母，你需要在任何地方使用LATIN1编码