是否有一组用于测试字符编码问题的“Lorem ipsums”文件?

时间:2012-02-08 09:08:35

标签: java unit-testing character-encoding junit

对于布局,我们有着名的“Lorem ipsum”文本来测试它的外观。

我正在寻找的是一组文件,其中包含用几种不同编码编码的文本,我可以在JUnit测试中使用它来测试一些在阅读文本文件时处理字符编码的方法。

例:

拥有ISO 8859-1编码的测试文件和Windows-1252编码的测试文件。 Windows-1252必须触发区域80 16 - 9F 16 的差异。换句话说,它必须包含该区域的至少一个字符,以区别于ISO 8859-1。

也许最好的测试文件集是每个编码的测试文件包含其所有字符一次的地方。但也许我不知道某事 - 我们都喜欢这种编码的东西,对吗? : - )

是否有一组用于处理字符编码问题的测试文件?

4 个答案:

答案 0 :(得分:41)

关于diacritics的维基百科文章非常全面,遗憾的是你必须手动提取这些字符。每种语言也可能存在一些助记符。例如,在波兰语中我们使用:

  

Zażółćgęśląjaźń

在一个正确的句子中包含所有9个波兰语变音符号。另一个有用的搜索提示是pangrams句子使用字母表中的每个字母至少一次

  
      
  • 用西班牙语写成,“ Elvelozurciélagainindúcomíafelizcardillo ykiwi.Laiginüeñataocabaelsaxofóndetrásdelpalenque de paja。”(全部27个字母和变音符号)。

  •   
  • 俄语,“Съешьжеещёэтихмягкихфранцузскихбулок,давыпейчаю”(所有33个俄语西里尔字母)。

  •   

List of pangrams包含详尽的摘要。任何人都想把它包装成一个简单的:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

库中?

答案 1 :(得分:25)

尝试使用ICU测试套件文件怎么样?我不知道它们是否是您测试所需要的,但它们似乎至少在UTF映射文件中是完整的:Link to the repo for ICU test files

答案 2 :(得分:8)

我不知道任何完整的文本文档,但如果您可以从简单的所有字符集概述开始,ftp.unicode.org server

就有一些文件可用

例如,这是WINDOWS-1252。第一列是十六进制字符值,第二列是unicode值。

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

答案 3 :(得分:0)

好吧,我曾使用过在线工具从Lorem Ipsum创建我的文本字符集。我相信它可以帮到你。我没有一个在一个页面中有所有不同的字符集。

http://generator.lorem-ipsum.info /