Question

注意：我完全改变了原来的问题！

我确实有几个文字，其中包含几个单词。单词分为1到6个难度类别，1个是最简单的，6个最难（或从普通到最不常见）。然而，显然并非所有单词都可以归入这些类别，因为它们是英语中无数的单词。

每个类别的单词数量是之前类别的两倍。

当我使用下面的术语6级时，我的意思是在第6级中引入。因此它是1600个新单词的一部分，并且在直到5级的1600个单词中找不到。

我如何评价单个文本的难度？比较这些文本：

一个简单的

只包含非常基本的词汇：

I drive a car.

假设这些是4个1级单词。

中等

This old man is cretinous.

这是一个非常基本的句子，只有一个难点。

也会有一些高级词汇：

I steer a gas guzzler.

那么第一个的第二个还是第三个要困难得多少？让我们比较文字1和文字3. I和a仍然是1级单词，gas可能是lvl 2，steer是4而guzzler不是甚至在列表中。 cretinous为6级。 如何计算这些文本的难度，现在我已经对词汇进行了分类？

我希望现在更清楚我想做什么。

Answer 1

您要解决的问题是如何量化您的定性数据。

搜索术语“量化定性数据”可能会对您有所帮助。

此处没有通用的通用算法。最好的方法取决于您希望使用的指标，以及您对每个项目的评分对整个项目的影响，对您感兴趣的因素的实际影响。

例如，如果最难的任务通常无法解决，那么只要项目涉及单个类型6任务，那么项目可能无法解决，您的指标需要反映这一点。

您还需要找到一些方法来解决丢失的数据（未评级的任务）。单个数字度量可能不会捕获您想要的有关这些项目的所有信息。

一旦您了解了该指标将用于什么，以及任务评级如何相互关联（线性增加难度与分类区别），那么有许多简单的指标可以编纂此分析。

例如，您可以根据未知任务数量和难度超过特定阈值的任务数量的组合对风险项目进行评级。或者，您可以根据任务难度的加权总和，根据未知任务的默认或估计难度，为项目评估持续时间。