辛普森悖論

什麼是辛普森悖論

有時數位會欺騙我們。他們可能會告訴我們一個似乎有道理的故事,但當我們仔細觀察時,我們會發現這個故事並不完全正確。這就是《辛普森悖論》的全部內容。當我們有一堆信息,我們把這些信息擠在一起做一個總結,然後,這個總結與所有小部分的內容並不完全匹配時,它就會出現。

假設有一個檸檬水攤,一周中每天都營業。如果我們查看整周售出的檸檬水總數,看起來他們在陽光明媚的日子里賣出的檸檬水更多。但是,如果我們每天看一下,我們會發現它們在陰天實際上賣得更多。總數沒有錯;它只是沒有向我們展示全貌。當我們把所有這些單獨的日子擠在一起時,我們就會失去每一天的一些關鍵細節。這是數位可以在我們甚至沒有意識到的情況下完成的一種魔術。

定義

簡單定義 1

想像一下,你有一個有很多小塊的拼圖。當你單獨看每件作品時,你可以看到一些小細節,比如一點天空或一棵樹的一部分。但是,如果你只看盒子上的大局,而不關注各個部分,你可能會錯過這些細節。辛普森悖論就是這樣。當由許多小塊組成的數據大圖景似乎與這些小塊中實際發生的情況不同時,就會發生這種情況。

簡單定義 2

把它想像成一部情節轉折的電影。整部電影可能會讓你認為一個角色就是英雄。但到最後,你發現那真的是別人。對於數據,辛普森悖論就像一個情節轉折,摘要告訴你一件事,但當你查看數據的每個部分時,就像電影的每個場景一樣,你會發現真相是不同的。

例子

大學錄取

  • 一所大學有兩個學院,技術學院和人文學院。從整體錄取數據來看,這所大學似乎更偏愛男性而不是女性。然而,在每所大學中,他們實際上錄取的女性比例高於男性。這是辛普森悖論,因為將兩所大學的數據放在一起掩蓋了每所大學實際上錄取女性的比例更高的事實。

  • 球員擊球率

  • 兩名棒球運動員 Mia 和 Joey 在兩個賽季中打球。單獨來看,Mia 在兩個賽季的平均打擊率都高於Joey。但是當我們把兩個賽季的數據結合起來時,喬伊最終得到的總體平均值更高。發生這種情況是因為第二賽季有更多的比賽,喬伊進步了很多,而米婭沒有那麼多機會,通過辛普森悖論扭曲了整體情況。

  • 腎結石治療

  • 一項研究比較了腎結石的兩種治療方法。當將所有患者放在一起觀察時,治療 A 似乎更有效。但是,如果您仔細觀察,按腎結石的大小細分數據,治療 B 實際上對小結石和大結石都更有效。這是辛普森悖論的一個例子,因為將所有數據放在一起掩蓋了這樣一個事實,即無論結石大小如何,治療 B 效果都更好。

  • 相關主題

    • 混雜變數:混雜變數是改變因變數和自變數效應的外部影響。這通常可以在創建辛普森悖論中發揮作用,因為它可能是改變各組比較方式的隱藏因素。

    • 數據分層:這是一種用於將數據分離到不同層或層的方法,以突出顯示聚合數據中可能不明顯的差異。這是一種可以用來克服辛普森悖論的技術。

    • 因果推理:因果推理是關於確定什麼導致了什麼。這是一個複雜的過程,像辛普森這樣的悖論往往會使這個過程變得更加困難。為了做出良好的因果推斷,仔細分析數據,而不假設相關性意味著因果關係是必不可少的。

    為什麼它很重要?

    理解辛普森悖論至關重要,因為它教會我們批判性地思考我們得到的資訊。並非一切都像表面上看起來那樣,尤其是數位。對於普通人來說,在根據統計數據做出決策時,瞭解這個悖論可能會非常有説明。它可以像根據畢業率選擇去哪所學校一樣簡單,也可以是在查看成功率時決定不同的健康治療一樣嚴肅的事情。

    數據在我們的生活中無處不在,從學校成績到體育統計數據再到選舉結果,解釋數據的錯誤可能會導致錯誤的結論。這會影響您認為最好的工作,您認為哪個社區最安全,或者根據數字幫助您認為什麼飲食最健康。因此,這不僅很重要,而且是當今世界成為聰明思考者的一部分。

    結論

    數字是強大的,辛普森悖論表明它們有時是多麼棘手。它提醒我們所有人,我們永遠不應該停止對我們周圍的世界提出問題,尤其是在根據統計數據做出決策時。超越表面,瞭解背景並分析細節是關鍵。這個悖論不是關於懷疑或困惑,而是要徹底和謹慎的教訓,使其成為我們這個數據驅動世界中的寶貴智慧。