验证和清除文本数据

时间:2017-01-25 21:08:16

标签: validation text nlp data-cleaning bigdata

我想知道如何验证您提取和清理的文本数据,考虑到您无法验证数值或读取每个条目。

我的具体案例是处理从.mbox文件中提取的电子邮件文本数据。所以有各种不同类型的格式 - 即签名等 - 而我想要分析的文本基本上是正文的一个小节。让我们说我找出了一种方法来提取我喜欢的内容,然后我该如何验证我将要使用的数据是我特别想要的?

1 个答案:

答案 0 :(得分:0)

构建一个测试框架,可以从示例消息中提取数据,并将结果与​​期望的结果进行比较。

将随机选择的消息与所需的输出一起添加到测试框架中。根据需要优化提取/清洁代码,直到此测试通过。

然后添加另一个随机选择的消息并继续优化提取代码,直到所有测试都通过。

重复直到测试框架中的消息代表数据集的足够大的子集,您可以高度放心地处理所有可能的情况。

如果您发现了一条不正确的消息,您可以将其添加到您的测试套件中并自信地修改您的代码,它不会破坏任何已知的情况。