《華盛頓郵報》最近發表的一篇有關民意調查如何進行的文章揭示了一件所有內部人士都知道、但是廣大公眾可能不知道的事情:在原始數據(即對回覆的統計)和公開發佈的民意調查結果之間有很多步驟。

該文關鍵的引文也許是:「所有的民意調查都存在隨機抽樣的錯誤,這是依賴人口樣本所固有的。他們都要弄清楚誰會投票,他們的偏好是甚麼。最好的民意調查在這方面都是透明的。」文章其餘的大部份內容都描述了民意調查機構在把原始數據轉換為可發表的民意調查時所做的各種「調整」。

他們的討論只描述了調整的類別,而沒有具體說明,因此產生了一個重要的問題:民意調查需要多大的透明度才能稱得上透明?《華盛頓郵報》自己的民意調查是否達到了他們自己的民意調查主管所要求的透明度?

《華郵》和大多數其它主要民調機構都是美國公眾意見研究協會AAPOR的「透明度倡議」的成員。儘管名字如此,這項倡議並不像沒有受過訓練的人聽起來那麼透明。

除此之外,該倡議允許投票機構在長達一年的時間內封鎖他們的原始數據。大多數,如果不是全部,成員組織都可以利用自己的這一權力。稱之為透明真的準確嗎?

AAPOR對它所考慮的透明度很坦率,但是對公眾並不透明。「透明倡議旨在促進調查方法披露,為調查組織提供幫助。……它是為實現調查研究的開放科學的目標而採用的方法。」AAPOR的目標是讓專業民意調查機構分享他們學到的方法,以提高未來的民意調查。過期數據,雖然廣大公眾對此不感興趣,但是對研究民意調查、統計、調查方法和公眾意見的專業人士來說,卻仍然是很有興趣的。

至於這個目標,沒有甚麼錯,很多都是對的。AAPOR鼓勵私有組織分享他們學到的經驗教訓,而不要求他們透露可能仍然具有商業價值的數據。毫無疑問,允許民意調查機構將他們的原始數據和調整數據保留為私有一年會增加參與度。

考慮到這一點,值得注意的是,在鼓勵透明度的過程中,《華郵》的這篇文章提到了兩個非常不同的現象:「隨機抽樣誤差」和「弄清楚誰會投票」。

隨機抽樣誤差是統計科學的一個重要組成部份。統計學告訴我們,一個大群體中有代表性的樣本的偏好會接近整個群體的偏好。因此,沒有必要問加州的每個人他們會怎麼投票來預測加州的投票結果;對加州人進行相對較小的抽樣就能得出一個相當不錯的近似值。隨機抽樣誤差指的是實際結果的範圍,也可能產生同樣的「很好的近似值」。

因為每個民意測驗都包含抽樣誤差,而且這些誤差確實是隨機的,所以有時可能會消除或者「糾正」偏差。消除隨機誤差的最簡單方法是對同一項進行多次測量,然後將結果平均。

著名的「真實清晰政治」(RealClearPolitics)民調平均值就是遵循了這種方法的邏輯;它將每一次公佈的民意調查都視為一次不同的嘗試,以衡量容易出現隨機分配抽樣錯誤的公眾意見。

弄清楚誰會投票是另外一回事。正如《華郵》這篇文章所闡明的,「弄清楚」更像是藝術而不是科學。何時以及如何進行調整,是民意調查專家的判斷問題,而不是統計科學的問題。好的調整可以消除原始數據的偏差,而錯誤的調整可能會導致非隨機性誤差——即「系統性偏差」。平均並不能消除由人類的偏見而不是數學產生的系統性偏見。如果許多民意調查專家從一個共同的傳統觀點得出他們的判斷,他們的結果也會顯示出同樣的偏見,而且平均他們的判斷並不能消除這種偏見。

不管怎麼說,作為企業的民調機構有權保留原始數據和調整數據,只向公眾展示他們希望公眾看到的內容。然而,當他們這樣做的時候,有關他們是「透明的」的暗示就是誤導性的,(充其量)也是虛偽的。公眾所看到的是一個綜合了原始數據和民調專家的判斷的經過修飾了的數字。

「透明度倡議」推進共享的一個結果是,所有的民意調查專家都將利用相同的、集體的普遍智慧。因此,它們都會在同一方向上表現出系統性的偏差。過去的表現表明,這個方向是向左的,這次是向著拜登的方向。為數不多的公眾民調專家運用獨特的技術,並誇耀自己優異的歷史記錄,正在預測一場不同的競選,結果正朝著特朗普的勝利傾斜,或者在某些情況下可以說是躍進。

確切的答案要過幾天才能知道。然而,當塵埃落定之時,如果系統性錯誤和民調專家的偏見成為拜登在民調中領先的主要原因,請不要感到震驚。

原文The Transparency Initiative That Isn’t刊登於英文《大紀元時報》。

作者簡介:

作者們是競選、數據分析和博弈論方面的專家,他們做的更多的分析可以在BattleGround20.com找到。

本文僅代表作者個人觀點,不一定反映《大紀元時報》的立場。#