美好的一天
我正在测试发布在https://towardsdatascience.com/understand-text-summarization-and-create-your-own-summarizer-in-python-b26a9f09fc70网站上的文本摘要代码的功能。
问题在于,当我在文本文件上调用该函数时,'cp949'编解码器无法解码位置205处的字节0xe2:出现非法的多字节序列错误。从其他帖子中,我知道这是与文件的编码类型有关的错误。因此,我将test2.txt文件的编码类型更改为UTF-8(将文件保存为纯文本格式,然后在“文本编码”>“其他编码”中选择UTF-8),但仍然收到此错误消息。
这是我编写的代码:
-Session
问题在于,当我运行代码时,使用以下命令:
javaOptions in Test ++= Seq(
"-Dspark.ui.enabled=false",
"-Dspark.ui.showConsoleProgress=false",
"-Dspark.databricks.delta.snapshotPartitions=2",
"-Dspark.sql.shuffle.partitions=5",
"-Ddelta.log.cacheSize=3",
"-Dspark.sql.sources.parallelPartitionDiscovery.parallelism=5",
"-Xmx1024m"
)
我收到此错误消息:'cp949'编解码器无法解码位置205中的字节0xe2:非法的多字节序列
我应该更改代码中的某些内容吗? 感谢您的支持。