08 l 標準差:這人是不是「靠譜」其實看標準差?

2022年07月04日21:24:17 熱門 1187

08 l 標準差:這人是不是「靠譜」其實看標準差? - 天天要聞

數據給你一雙看透本質的眼睛,這裡是《數據分析思維課》。

前面我們講過平均值不能夠代表整體的水平,也給你講了大數定律、散點圖這些知識。接下來我們再進入一個常見的問題:怎樣能快速看清一組數據的大概情況

對於這個問題來說,我們不必用非常複雜的散點圖或者文字來進行表述,這個時候就輪到標準差登場了。標準差和數據分佈、平均值一起就可以很方便地描述一組數據的大致情況。

標準差還有一個孿生兄弟叫做標準誤差,這兩個兄弟確實很像,我們也會經常能聽到說「這個問題在誤差允許的範圍里。」感覺一旦說了這句話,好像這個東西就很靠譜了,但真的是這樣嗎?今天我就給你展開講講標準差和標準誤差。

標準差

標準差的概念比較簡單,它代表一組數值和平均值相比分散開來的程度。也就是說,標準差大代表大部分的數值和平均值差異比較大,標準差小代表這組數字比較接近平均值。

標準差的計算公式我給你放在了附錄里,公式看上去稍微複雜一點,但主要就是算每一個數據和平均值之間的差異距離。你經常聽說某市平均薪資是 X 萬,你很納悶我和周邊人薪資這麼少,為啥平均薪資那麼高,我是怎麼「被漲薪」的?我們可以看一下下面這個例子,假如兩個小組的月薪大概是如下這個樣子,單位都是「萬」。

第一組:[1.72,1.70,1.68,1.71,1.69] ;第二組:[1.70,5.20,0.60,0.2,0.8]。

這兩組人你可以簡單計算一下,你會發現平均月薪都是 1 萬 7。但很明顯,第 2 組人的薪酬高低差異要比第 1 組人大很多。第一組人都是 1 萬 7 左右的薪資,差異不大。你很不巧在第二組裡,你月薪 6000,周邊都是 2000、8000 的小夥伴,但是實際上,你這組裡有月薪 5 萬的人你不認識,於是,你就「被漲薪」了。

通過公式或者 Excel 函數(我在最後一章會教你如何方便地計算),你能算出來第一組標準差是 0.014,第二組是 1.818,差異能有一百多倍。如果每次只給你某地區或者某部門的平均薪酬,但是不告訴你這個地區部門它的標準差有多大,那我們難免就會覺得困惑,「不患寡而患不均」用在這裡依舊很合適。

所以看薪資的時候,你不僅需要知道一個平均值,同時還需要知道一個標準差,你才能知道整體薪資水平、你自己的水平以及你將來的天花板在哪裡。

但是只有這個概念還不夠,假設對於第 1 組的薪資單位來說,我用的是不是「萬元」,而是用「百元」甚至「元」作為單位的話,它的標準差就會到 1.414 和 141.4。這個時候再和第 2 組人員去比,感覺好像標準差的離散度更高,但是實際數據卻不是如此。

所以一般我們真的在做數據分析的時候,我們會常用另外一個數據來規避這種問題,它叫做離散係數 CV(coefficient of variation)。它的計算公式很簡單,就是用標準差除以平均值(離散係數 = 標準差 / 平均值),這樣的話就規避了單位或者其他因素的這些差異。我們直接看離散係數這個數據,就能知道這幾組數據之間的離散程度和差異是什麼樣的。

下次你再去問人力資源部門的平均薪酬的時候,你可以多問一句「這個部門的離散係數有多少?」你大概就會知道,你可以要到最高多少的薪酬和你將來的漲薪空間會有多大了。

標準差的具體使用

標準差除了衡量一個群體裏面具體數值之間差異有多大,比如說衡量我們的薪酬、身高、體重這些差異之外,它還有什麼用呢?

它也會用于衡量一個人或者一個團隊的穩定性,比如說。在你常見的 NBA 里我們會用平均數據來衡量一個球員的戰鬥力,比如場均得分,蓋帽,搶斷助攻等等。

08 l 標準差:這人是不是「靠譜」其實看標準差? - 天天要聞

同時,我們會使用標準差來衡量一個球員的穩定性。

如果只看場均得分達到 20+ 的球員中,當屬勒布朗 - 詹姆斯最穩定,標準差為 5.8 分,遍歷他本賽季所有的比賽,他既沒有超過 40 分的狂飆,也無低於 13 分的低迷。

類似的,我們在衡量一個團隊的銷售業績整體情況的時候,我們會使用平均值。但是如果我們要看的是一段時間內團隊成員的收入穩定情況和能力,我們就會看他最近成單的標準差。

同樣,對應到做管理上,比如我做 CTO 管理程序員的時候,我會去留意大家提交代碼的節奏。有的人就是喜歡所有事情都到最後一天才完成提交,有的人就喜歡平均用力,在各個時間段里都有提交。

用標準差來看,你就會發現有的人標準差非常大,屬於突擊型選手;有的人標準差很小,屬於細水長流型選手。對於標準差比較大的人,他的風險就比較高,因為他有可能最後關頭完美完成任務,也有可能拖延症拖到最後事情沒有完成,最後整體的平均值都沒有達到;而按部就班的人,他的標準差比較小,優勢是比較穩定,但是突破性可能不夠強。學到這裡,你也可以試着評估一下你的工作節奏,你是屬於哪一種選手呢?

而在做投資的時候,標準差也是一個重要的風險 / 收益衡量指標。你看我們在銀行儲蓄,這個利率波動就很小,相應地標準差很小;股票的波動就會大一些,收益的標準差也會比較大;你再看比特幣,一會兒馬斯克一句話翻好幾倍,一會兒跌 30%,炒幣收益的標準差可能是銀行收益標準差的上萬倍,股票的上百倍。

所以如果你把錢放在銀行,標準差較小,收益穩定;而如果你要去炒幣,標準差這麼大,你有可能大賺一大筆也可能賠得血本無歸。標準差,其實就是代表着一個行業裏面的波動情況,特別面對一個你不理解的投資產品的時候,可以看一下這個產品歷史的標準差,和你常用的投資品比對一下,你心裏就有數了。像黃金這種很穩定的產品,幾個標準差就很大了。比如 2013 年 04 月 16 日黃金大跌,路透社分析師約翰·肯普(John Kemp)感嘆黃金波動率超過 6 個標準差,覺得非常不可思議。

像黃金一類很少波動的東西出現了這麼大的波動,達到 6 個標準差的波動的時候(本來穩定的標準差發生了巨大改變),我們就把這種事件叫做「黑天鵝事件」。這次事件也被後來的人叫做「黃金黑天鵝事件」,所以你下次再看到黑天鵝事件的時候,你要知道這個說法是從標準差這裡衍生出來的概念。

標準誤差

說完標準差,我們來說一下它的孿生兄弟:標準誤差。誤差這個詞我們經常在生活和工作當中提到,說「這個是在我們誤差範圍里可以接受的。」那麼這句話裏面提到的「誤差範圍」說的到底是什麼呢?它和標準差是啥關係?

這兩個概念經常在很多地方被混淆,以至於很多的統計模型里說的標準差,其實說的是標準誤差。這兩個概念之間最大的差別其實就是在於,標準差是針對確切一次的已知統計結果,反映的是在一次統計中,個體之間的離散程度,也可以說標準差是針對具體實例的描述性統計

標準誤差代表一種推論的估計,它反映的是多次抽樣當中樣本均值之間的離散程度,也就是反映這次抽樣樣本均值對於總體期望均值的代表性,它主要是用於推斷整體情況預測和推算使用。如果這麼說你還是有些分不清這兩兄弟,你可以用下面這個兩個公式來對照分辨一下。

標準差(Standard deviation)= 一次統計中個體分數間的離散程度,反映了個體對樣本整體均值的代表性,用於描述統計。

標準誤差(Standard error)= 多次抽樣中樣本均值間的離散程度,反映了樣本均值對總體均值的代表性,用於推論統計。

標準誤差的具體使用

標準誤差經常會被用於拿出一部分樣品去判斷整體產品線的產品質量,或者判斷一個事情是不是屬於常見範圍。

比如說我們常見的六希格瑪(Six Sigma),其實就是指所有的產品質量問題需要控制在 6 個標準誤差裏面。你聽到的產品質量或者運維故障控制在 3 個 9 或者 5 個 9,說的也是誤差範圍。5 個 9 的意思就是 99.99966% 的產品是沒有品質問題的。

這個是 99.99966% 怎麼算出來的呢?這就涉及我們 06 講里正態分佈的知識,你要是記不清了,可以回過頭再複習一下。

比如說我們用下面這個圖做質量控制,那麼這些值就是標準誤差範圍。例如,我們說在一個標準誤差範圍里,大概就是圖裏面的 68.3%;兩個標準誤差範圍里也就是距離均值(標準件)的 95.4%;三個標準誤差就是 99.7%;6 個標準誤差(也就是 6-sigma)也就代表着要控制到在生產的產品中,有 99.99966% 的產品是沒有品質問題的(每一百萬件產品中只有 3.4 件有缺陷)。

08 l 標準差:這人是不是「靠譜」其實看標準差? - 天天要聞

所以說我們從標準誤差來看,系統的穩定性要保證 5 個 9、6 個 9 或者說我們開發的代碼的質量控制是 6-sigma,這個質量就非常好了。這麼說可能你還沒有感覺,我再給你做個比喻,幫助你理解一下。

帥哥美女其實在社會裏面是非常難得一見的,畢竟我們絕大部分都是普通人。我們先假設人類美麗和帥的程度隨機分佈(整容的人沒那麼多),如果你每天見到一個美女(帥哥),那麼有如下公式成立:

  • 1 個標準誤差的美女約為 3 天一遇;
  • 2 個標準誤差的美女為約 22 天一遇;
  • 3 個標準誤差的美女約為 370 天一遇;
  • 4 個標準誤差的美女約為 43 年一遇;
  • 5 個標準誤差的美女約為 4779 年一遇;
  • 6 個標準誤差的美女約為 139 萬年一遇;
  • 7 個標準誤差的概率約為 10 億年一遇。

這樣看,你就知道 6 個標準誤差有多麼嚴格了。你下次遇到一個特別美麗的女孩子,你覺得她是萬年一遇的美女的時候,你可以和她說:「啊,你是 6 個標準差一遇的美女啊!」這肯定比說「你真美麗」要有深度得多,她肯定會對你學識非常敬仰(開個玩笑,真說估計會被打出去)。這樣你應該知道標準誤差是一個什麼含義了。

小結

好,回顧一下今天的內容,今天主要給你講了兩個概念:標準差和標準誤差。

標準差針對已經發生的事情,它是平均值的一個補充標準。而標準誤差是多次抽樣當中對樣本離散程度的描述,用於推論中使用。在後面的內容里,我們還會用到這兩兄弟來評估和衡量一個算法的穩定性以及實現結果的好壞。

看一個人、一個企業、一個投資產品靠不靠譜,除了人辦事情的成功率、企業收入平均值和產品的盈利率,你還要看它標準差是怎樣的。有可能這個所謂的「成功人士」只成功了一次,賺了一大筆錢,但是其實別的事他都失敗了,那說明這人的標準差很大,有可能他就是靠運氣,不太靠譜。我們中國人其實是比較喜歡「中庸」的這種感覺,用標準差的視角來看,就是自己做事做人的標準差要小。

對標準誤差來說,我送你一個成語,叫做「嚴於律己,寬於待人」。前半句是指我們在工作和生活中,要盡量少出錯,甚至是不犯錯,這樣不僅做事漂亮,領導喜歡,而且這種不斷追求完美的理念,會一直推着我們往前跑。你可以試試,把六西格瑪的思想不僅用在工作中,也用在生活里,對自己高標準、嚴要求一段時間,相信你會獲得更進一步的成長。後半句是說,躺平無罪,奮鬥有理。我們可以用六個標準誤差來要求自己,但是別人也有用一個標準誤差要求自己的自由。

如果用一句話來概括,希望你盡量把自己做人做事的標準差變小,提高對自己的標準差預期

數據給你一雙看透本質的眼睛,數據知識學無止境,讓我們一起持續學習,一起共勉。

思考

你過去遇到過什麼黑天鵝事件嗎?從你的角度看,它是幾個標準誤差的範圍呢?歡迎你在評論區分享你的想法,我們一起提高。

附錄:方差標準差公式

08 l 標準差:這人是不是「靠譜」其實看標準差? - 天天要聞

08 l 標準差:這人是不是「靠譜」其實看標準差? - 天天要聞

關注致用教育,我們共同成長

熱門分類資訊推薦

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO - 天天要聞

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO雖然說《愛情公寓》這部劇在劇情上充滿了爭議,但是一定程度上,這部劇也是很多人的回憶,是伴隨了一代人的青春回憶,而且劇中的很多角色都成為了經典,他們的口頭禪也一直被拿來玩兒梗。
Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了 - 天天要聞

Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了

談到《愛情公寓》這部火爆一時的歡樂喜劇,大家肯定都不陌生。不知道大家是否還記得《愛情公寓》中那個把曾小賢治得服服帖帖的女上司Lisa榕,現實中的她名叫榕榕,和劇中的形象也判若兩人。1981年出生在遼寧瀋陽的榕榕,畢業於上海戲劇學院,後來成為了上海東方傳媒集團有限公司的一名主持人。