Question

美好的一天

我正在测试发布在https://towardsdatascience.com/understand-text-summarization-and-create-your-own-summarizer-in-python-b26a9f09fc70网站上的文本摘要代码的功能。

问题在于，当我在文本文件上调用该函数时，'cp949'编解码器无法解码位置205处的字节0xe2：出现非法的多字节序列错误。从其他帖子中，我知道这是与文件的编码类型有关的错误。因此，我将test2.txt文件的编码类型更改为UTF-8（将文件保存为纯文本格式，然后在“文本编码”>“其他编码”中选择UTF-8），但仍然收到此错误消息。

这是我编写的代码：

-Session

问题在于，当我运行代码时，使用以下命令：

javaOptions in Test ++= Seq(
  "-Dspark.ui.enabled=false",
  "-Dspark.ui.showConsoleProgress=false",
  "-Dspark.databricks.delta.snapshotPartitions=2",
  "-Dspark.sql.shuffle.partitions=5",
  "-Ddelta.log.cacheSize=3",
  "-Dspark.sql.sources.parallelPartitionDiscovery.parallelism=5",
  "-Xmx1024m"
)

我收到此错误消息：'cp949'编解码器无法解码位置205中的字节0xe2：非法的多字节序列

我应该更改代码中的某些内容吗？感谢您的支持。

运行文本摘要代码时出现编码问题

0 个答案: