运行文本摘要代码时出现编码问题

时间:2020-03-16 09:42:39

标签: encoding sequence codec multibyte summarization

美好的一天

我正在测试发布在https://towardsdatascience.com/understand-text-summarization-and-create-your-own-summarizer-in-python-b26a9f09fc70网站上的文本摘要代码的功能。

问题在于,当我在文本文件上调用该函数时,'cp949'编解码器无法解码位置205处的字节0xe2:出现非法的多字节序列错误。从其他帖子中,我知道这是与文件的编码类型有关的错误。因此,我将test2.txt文件的编码类型更改为UTF-8(将文件保存为纯文本格式,然后在“文本编码”>“其他编码”中选择UTF-8),但仍然收到此错误消息。

这是我编写的代码:

-Session

问题在于,当我运行代码时,使用以下命令:

javaOptions in Test ++= Seq(
  "-Dspark.ui.enabled=false",
  "-Dspark.ui.showConsoleProgress=false",
  "-Dspark.databricks.delta.snapshotPartitions=2",
  "-Dspark.sql.shuffle.partitions=5",
  "-Ddelta.log.cacheSize=3",
  "-Dspark.sql.sources.parallelPartitionDiscovery.parallelism=5",
  "-Xmx1024m"
)

我收到此错误消息:'cp949'编解码器无法解码位置205中的字节0xe2:非法的多字节序列

我应该更改代码中的某些内容吗? 感谢您的支持。

0 个答案:

没有答案