我想知道如何验证您提取和清理的文本数据,考虑到您无法验证数值或读取每个条目。
我的具体案例是处理从.mbox文件中提取的电子邮件文本数据。所以有各种不同类型的格式 - 即签名等 - 而我想要分析的文本基本上是正文的一个小节。让我们说我找出了一种方法来提取我喜欢的内容,然后我该如何验证我将要使用的数据是我特别想要的?
答案 0 :(得分:0)
构建一个测试框架,可以从示例消息中提取数据,并将结果与期望的结果进行比较。
将随机选择的消息与所需的输出一起添加到测试框架中。根据需要优化提取/清洁代码,直到此测试通过。
然后添加另一个随机选择的消息并继续优化提取代码,直到所有测试都通过。
重复直到测试框架中的消息代表数据集的足够大的子集,您可以高度放心地处理所有可能的情况。
如果您发现了一条不正确的消息,您可以将其添加到您的测试套件中并自信地修改您的代码,它不会破坏任何已知的情况。