2021/12/28

內在效度(internal validity)vs. 外在效度(external validity)

不知道你的擇偶條件裡,有沒有外表這一項?

「長得好看的人,都很花心」我們多少都聽過類似的勸告,除非你有相對應的條件,像是你也長得很好看、很有錢或者有什麼特殊才華,否則越級打怪相當不妥,就算真的有機會與對方在一起,也有很大的機會被對方甩掉。

這種描述人類特徵與言行的句子相當多:十禿九色、男抖窮女斗賤,乍聽之下只是某種古老的人生智慧,經不起科學與真實世界的考驗。但心理學家其實在做差不多的事,他們做研究做實驗,就是希望找到描述大多數人類的樣態,讓我們可以理解人。

心理學家雖然有很大的企圖,同時卻很矛盾。他們既想要找出影響人類特定行為背後的特定原因,又想把找到的因果關係,推論到其它群體上,希望結論可以適用到多數的人,而且越多越好,力求普遍性要高。可是,當你討論的人越多,單純的因果關係就越難以成立,想想世界上各式各樣的人都有,想找到一個普遍適用的通則有多難。

回想你國高中時,同學們翻著八卦小報或算命雜誌,跟你說「長得好看的人,都很花心」,當下,你到底要選擇相信,還是選擇吐槽?假如我們把這麼議題拿來做心理學研究,在方法學上,要分析這句建議,可以用兩個指標來評估。

首先,不否認一個人花心的原因跟外貌有關,畢竟長得好看的人有比較多的選擇,就算什麼都不做,套個垃圾袋出門,還是有人願意主動靠近。但外表影響花心程度的同時,還有其他因素會影響花心,像是有不有錢,個性,價值觀等等。

所以,說不定根本是一個人因為有錢而花心,只是剛好他長得好看。如果這是事實,會讓原本的建議完全走味,必須改成「有錢的人,都很花心」。

為了確認研究的因果關係(你同學的講話能不能信),心理學家用內在效度(internal validity)這個指標,衡量獨變項影響依變項的程度,表示研究因果關係的強度與純粹性。也就是說,研究者能夠有效排除獨變項之外的干擾與混淆,表示內在效度越高。所以,內在效度是考驗研究者控制與研究無關因素的能力。

當你的同學能相當肯定外貌對花心的影響,而且完全排除其他影響因素,那他的建議才能夠站得住腳。但威脅內在效度的因素很多,研究的潛在原因越多,越可能降低內在效度。姑且說幾個,讓你體驗一下研究者半夜失眠的時候,都在煩惱什麼。

其中一大類跟研究設計與流程有關,畢竟研究環境很複雜的話,會讓參與者暴露在許多潛在因素之下,他們的反應就不一定只來自獨變項的效果。

要是打從一開始研究者就選到有偏誤的樣本,他們具有某些特定與能力,對研究結果的推論造成混淆。比如想研究帥哥美女的感情觀,但找來人剛好都是整形過後的帥哥美女,這樣研究發現不一定能反應好看的影響力,說不定跟有錢比較有關(能整形的人通常比較有錢)。

或者我們研究的帥哥美女幾乎是學生、上班族,還是其他身分,都可能讓他們產生不同交往關係,要推論外貌影響花心的程度相當困難,因為每種身分所在的環境,各有許多影響花心的因素。

若執行的研究是實驗,就要注意有沒有做到隨機分派,讓參與者身上影響因果推論的因素,平均分配到實驗組與控制組中。

評量工具與施測方法也是需要考量的重點。這個部份沒有界定不清楚,或是文字用得太難,有學術腔,就會讓參與者的反應有特定的模式而影響結果。當我們要詢問參與者的感情狀況,就得先問問花心的意思是什麼意思,花心的定義是什麼?

一個人有其他曖昧對象就叫花心,還是同時交往很多人才是花心?兩種界定方式可能改變研究的結果,讓影響研究的真正原因,不是外貌,反而是定義方式。

另一類潛在原因,來自參與者本身。參與者來參加研究之外,也有自己的人生要過,他們在研究期間,個人活動與經歷,儘管不是由研究者安排,卻會影響研究結果,這在方法學上叫做歷史(history),比如參加研究的過程中發生重大車禍,結果參與者的三觀大變,回答方式像變了一個人。

站在時間的角度來看,還有一種跟歷史很像的因素叫作成熟(maturation),參與者可能在參與研究期間長大,變得更成熟。就算目光不要拉得那麼長遠,光是參與者剛吃飽飽踏進研究室,認真享受研究過程之後,肚子變餓,精神變差,都算是成熟的一部分,可想而知成熟會影響參與者的反應。

不容易吧。

你發現研究者必須排除萬難,才能確定研究裡的因果關係。

而且找到因果關係,故事還沒結束,我們還可以想想對方是怎麼知道這個結論的?回到你的同學。也許他情史豐富,談過三五段感情(國高中生,三五段應該算滿多吧),交往過不少帥哥美女,所以滿有資格對你的感情世界指手畫腳,但是,他過去交往的對象,能夠類推到他沒有交往過,而且長得好看的人嗎?

不一定。

這時,就得使用另外一種叫做外在效度(external validity)的指標來衡量。外在效度是指研究或測驗的結果,能類推到研究對象以外,不同參與者、不同情境與不同時間的程度。說白了,就是研究結論的普遍適用性有多高。

外在效度能說明研究結果是常態,還是少數特例的狀況。研究的結果能在其它群參與者身上成立嗎?換個情境研究的發現還有效果嗎?這些問題都是衡量外在效度時該問的問題。

外在效度的高低的關鍵在於當初研究招募的參與者有沒有代表性,能不能反映母群。說不定你的同學本來就偏愛行為不羈的人,那麼他觀察到的就只是特例,算是有偏差的樣本。因此,他說的建議不太能完全適用在其他好看的人,也許其它好看的人大多偏好穩定的感情。

心理學的研究也是如此,研究者必須觀察能代表母群的樣本,才能把從樣本所觀察到的結論回推到母群上。在這個想法之下,外在效度分成兩種類型,一種是母群效度(population validity),一種是生態效度(ecological validity)。

母群效度表示研究者從樣本所獲得的結論,能推論回母群的程度。以國中同學的例子來說,假如心理學家的研究對象,是長得好看的臺灣人,照理來說研究的結論,只能適用於長得好看的臺灣人,而且我們真的觀察到確實是越好看的臺灣人越花心,那這個花心的研究,母體效度就越高。

我們把視野大,把這層關係外推,如果研究的結論能應用到母群以外的群體或研究情境以外的情境,就表示研究的生態效度越高。長得好看的人越花心不只可以適用於臺灣人,連美國的帥哥美女也適用的話,那就表示這個研究的生態效度很高。

一般而言,心理學家在確定研究的內在效度之後,會希望盡可能提升外在效度,才能提升結論的普遍性,研究者會希望他在臺灣做的研究結果,同時適用在美國人身上。然而,為了確定研究的內在效度,心理學家已經簡化研究與實驗環境,這類人工的環境又會影響結果的類推力,形成取捨的兩難。

加上還有一些因素會影響外在效度的類推力,除了前面提到沒有執行隨機抽樣之外,當研究的參與者意識到自己被研究者觀察或知道自己處於研究狀態,便會更積極表現,以至於研究結果符合理論的預期,實則不是如此。研究只是因為偶然的機遇下產生的結果。反常的研究結果,自然無法回推到母群身上,這便是霍桑效應

有時,參與者積極表現不是來自於他人的注目,而是他們默默接受到研究者的暗示,包括,眼神、語氣、說話時神秘停頓或是光是研究者個人的魅力,都會讓參與者猜想研究的真正目的,而盡力做出符合研究目的的表現。

這當然很不好,它同樣是反常的研究結果。

衡量研究結果的兩個指標,內在效度與外在效度各自有各自的威脅,如果實驗者不好好控制威脅因子,就會影響兩者的好壞,進而影響研究結果的品質。而這兩個指標的不只能用來評估研究,在生活中也很好用,能拿來評估隱含因果關係的句子,你可以用它們想想別人講的話,是不是有道理,還是在吹噓。

Note:

1. 外在效度與內在效度,也翻成外部效度與內部效度。

沒有留言:

張貼留言