Weibull 分布 和 Lognormal 分布 (一)
无论是质量工程师、六西格玛绿带[1]、六西格玛黑带[2],他们一般都对正态分布相当熟悉和了解。始终,正态分布是最常见的概率分布,不过当他们遇到非正态的分布时往往无所适从,如果他们忘记了验证这些分布,甚至会错误地预设了那些非正态的分布为正态。
今天,优思学院希望介绍两个概率分布,这两个概率分布虽然知道的人不多,但其实应用非常广泛,它们就是—-Weibull 分布 和 Lognormal 分布。这两种非正态分布在服务业中颇为常见。
还记得这张图吗?这是总体与样本,我们在总体取出N个样本,然后便可以从中计算出均值和标准差之类的估算值,以描述样本中的观察结果。在统计数据中,直方图通常表示样本,而曲线通常代表整个总体。
首先,我们先重温一下何谓正态分布。正态分布的机率的函数曲线是对称的,看起来有点像钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此而得名)。
让我们用一个例子来说明。我测试了咖啡因在咖啡豆(样本数量N为 50)中的含量百分比,并找到一个像这样的直方图。我还发现平均值为0.078。且标准差为0.020。
您可以看到数据看起来有点像钟形,和它围绕均值对称。直方图中的蓝色条显示测量样品中50个值的分布。红色曲线是预测的总体,当样本数量只有50,您需要一些想像力去识别正态分布。
当然,如果样本数量N增大的话,直方图会开始看起来更像钟形。就像以下这些图表所见的情况,我们可以确定它可以作为正态分布来使用。
现在,让我们看另一个例子。
我们收集了各个银行处理索赔的处理时间(Throughput time)的次数。这是一个直方图,指的是我们的每次的处理时间,较集中于0-30之间。然后,我们可以拟合正态分布曲线(红线),就好像下图一样,你觉得合适吗?
很明显,答案是否定的。
因为,直方图和正态分布曲线明显呈不同的形状,直方图中也不能看到它围绕均值对称,假如,我们用红线作为依据,而不理会直方图的话,便会误以为只有一半的索赔处理时间在30分钟以下,然而,事实上从直方图所见却非如此。因此,我们可以说这个数据并不符合正态分布。
幸运的是,在这种情况下,我们还有以下两种分布是有可能合适的分布。
第一种,是Weibull分佈,它是一种偏态分布。就是分布是偏向一側,是它的尾巴位于另一侧。Weibull分佈通常用于数据,例如吞吐量时间和处理时间等,因为这些通常是偏斜的变量,它看起来像这样:
第二种,是Lognormal分布,同样常用于偏斜数据,中文译作对数正态分布。它看起来像这样:
从图形形状看来,两种分布都应该比正态分布更适合用于我们关于银行索赔的处理时间这个例子上。
今天先谈到这里,我们会在下一篇进一步说明应该如何利用Minitab选择适合的概率分布。
参考
想看更多文章,请关注我们的知乎帐号。