心事備忘錄: 內在效度（internal validity）vs. 外在效度（external validity）

不知道你的擇偶條件裡，有沒有外表這一項？

「長得好看的人，都很花心」我們多少都聽過類似的勸告，除非你有相對應的條件，像是你也長得很好看、很有錢或者有什麼特殊才華，否則越級打怪相當不妥，就算真的有機會與對方在一起，也有很大的機會被對方甩掉。

這種描述人類特徵與言行的句子相當多：十禿九色、男抖窮女斗賤，乍聽之下只是某種古老的人生智慧，經不起科學與真實世界的考驗。但心理學家其實在做差不多的事，他們做研究做實驗，就是希望找到描述大多數人類的樣態，讓我們可以理解人。

心理學家雖然有很大的企圖，同時卻很矛盾。他們既想要找出影響人類特定行為背後的特定原因，又想把找到的因果關係，推論到其它群體上，希望結論可以適用到多數的人，而且越多越好，力求普遍性要高。可是，當你討論的人越多，單純的因果關係就越難以成立，想想世界上各式各樣的人都有，想找到一個普遍適用的通則有多難。

回想你國高中時，同學們翻著八卦小報或算命雜誌，跟你說「長得好看的人，都很花心」，當下，你到底要選擇相信，還是選擇吐槽？假如我們把這麼議題拿來做心理學研究，在方法學上，要分析這句建議，可以用兩個指標來評估。

首先，不否認一個人花心的原因跟外貌有關，畢竟長得好看的人有比較多的選擇，就算什麼都不做，套個垃圾袋出門，還是有人願意主動靠近。但外表影響花心程度的同時，還有其他因素會影響花心，像是有不有錢，個性，價值觀等等。

所以，說不定根本是一個人因為有錢而花心，只是剛好他長得好看。如果這是事實，會讓原本的建議完全走味，必須改成「有錢的人，都很花心」。

為了確認研究的因果關係（你同學的講話能不能信），心理學家用內在效度（internal validity）這個指標，衡量獨變項影響依變項的程度，表示研究因果關係的強度與純粹性。也就是說，研究者能夠有效排除獨變項之外的干擾與混淆，表示內在效度越高。所以，內在效度是考驗研究者控制與研究無關因素的能力。

當你的同學能相當肯定外貌對花心的影響，而且完全排除其他影響因素，那他的建議才能夠站得住腳。但威脅內在效度的因素很多，研究的潛在原因越多，越可能降低內在效度。姑且說幾個，讓你體驗一下研究者半夜失眠的時候，都在煩惱什麼。

其中一大類跟研究設計與流程有關，畢竟研究環境很複雜的話，會讓參與者暴露在許多潛在因素之下，他們的反應就不一定只來自獨變項的效果。

要是打從一開始研究者就選到有偏誤的樣本，他們具有某些特定與能力，對研究結果的推論造成混淆。比如想研究帥哥美女的感情觀，但找來人剛好都是整形過後的帥哥美女，這樣研究發現不一定能反應好看的影響力，說不定跟有錢比較有關（能整形的人通常比較有錢）。

或者我們研究的帥哥美女幾乎是學生、上班族，還是其他身分，都可能讓他們產生不同交往關係，要推論外貌影響花心的程度相當困難，因為每種身分所在的環境，各有許多影響花心的因素。

若執行的研究是實驗，就要注意有沒有做到隨機分派，讓參與者身上影響因果推論的因素，平均分配到實驗組與控制組中。

評量工具與施測方法也是需要考量的重點。這個部份沒有界定不清楚，或是文字用得太難，有學術腔，就會讓參與者的反應有特定的模式而影響結果。當我們要詢問參與者的感情狀況，就得先問問花心的意思是什麼意思，花心的定義是什麼？

一個人有其他曖昧對象就叫花心，還是同時交往很多人才是花心？兩種界定方式可能改變研究的結果，讓影響研究的真正原因，不是外貌，反而是定義方式。

另一類潛在原因，來自參與者本身。參與者來參加研究之外，也有自己的人生要過，他們在研究期間，個人活動與經歷，儘管不是由研究者安排，卻會影響研究結果，這在方法學上叫做歷史（history），比如參加研究的過程中發生重大車禍，結果參與者的三觀大變，回答方式像變了一個人。

站在時間的角度來看，還有一種跟歷史很像的因素叫作成熟（maturation），參與者可能在參與研究期間長大，變得更成熟。就算目光不要拉得那麼長遠，光是參與者剛吃飽飽踏進研究室，認真享受研究過程之後，肚子變餓，精神變差，都算是成熟的一部分，可想而知成熟會影響參與者的反應。

不容易吧。

你發現研究者必須排除萬難，才能確定研究裡的因果關係。

而且找到因果關係，故事還沒結束，我們還可以想想對方是怎麼知道這個結論的？回到你的同學。也許他情史豐富，談過三五段感情（國高中生，三五段應該算滿多吧），交往過不少帥哥美女，所以滿有資格對你的感情世界指手畫腳，但是，他過去交往的對象，能夠類推到他沒有交往過，而且長得好看的人嗎？

不一定。

這時，就得使用另外一種叫做外在效度（external validity）的指標來衡量。外在效度是指研究或測驗的結果，能類推到研究對象以外，不同參與者、不同情境與不同時間的程度。說白了，就是研究結論的普遍適用性有多高。

外在效度能說明研究結果是常態，還是少數特例的狀況。研究的結果能在其它群參與者身上成立嗎？換個情境研究的發現還有效果嗎？這些問題都是衡量外在效度時該問的問題。

外在效度的高低的關鍵在於當初研究招募的參與者有沒有代表性，能不能反映母群。說不定你的同學本來就偏愛行為不羈的人，那麼他觀察到的就只是特例，算是有偏差的樣本。因此，他說的建議不太能完全適用在其他好看的人，也許其它好看的人大多偏好穩定的感情。

心理學的研究也是如此，研究者必須觀察能代表母群的樣本，才能把從樣本所觀察到的結論回推到母群上。在這個想法之下，外在效度分成兩種類型，一種是母群效度（population validity），一種是生態效度（ecological validity）。

母群效度表示研究者從樣本所獲得的結論，能推論回母群的程度。以國中同學的例子來說，假如心理學家的研究對象，是長得好看的臺灣人，照理來說研究的結論，只能適用於長得好看的臺灣人，而且我們真的觀察到確實是越好看的臺灣人越花心，那這個花心的研究，母體效度就越高。

我們把視野大，把這層關係外推，如果研究的結論能應用到母群以外的群體或研究情境以外的情境，就表示研究的生態效度越高。長得好看的人越花心不只可以適用於臺灣人，連美國的帥哥美女也適用的話，那就表示這個研究的生態效度很高。

一般而言，心理學家在確定研究的內在效度之後，會希望盡可能提升外在效度，才能提升結論的普遍性，研究者會希望他在臺灣做的研究結果，同時適用在美國人身上。然而，為了確定研究的內在效度，心理學家已經簡化研究與實驗環境，這類人工的環境又會影響結果的類推力，形成取捨的兩難。

加上還有一些因素會影響外在效度的類推力，除了前面提到沒有執行隨機抽樣之外，當研究的參與者意識到自己被研究者觀察或知道自己處於研究狀態，便會更積極表現，以至於研究結果符合理論的預期，實則不是如此。研究只是因為偶然的機遇下產生的結果。反常的研究結果，自然無法回推到母群身上，這便是霍桑效應。

有時，參與者積極表現不是來自於他人的注目，而是他們默默接受到研究者的暗示，包括，眼神、語氣、說話時神秘停頓或是光是研究者個人的魅力，都會讓參與者猜想研究的真正目的，而盡力做出符合研究目的的表現。

這當然很不好，它同樣是反常的研究結果。

衡量研究結果的兩個指標，內在效度與外在效度各自有各自的威脅，如果實驗者不好好控制威脅因子，就會影響兩者的好壞，進而影響研究結果的品質。而這兩個指標的不只能用來評估研究，在生活中也很好用，能拿來評估隱含因果關係的句子，你可以用它們想想別人講的話，是不是有道理，還是在吹噓。

Note：

1. 外在效度與內在效度，也翻成外部效度與內部效度。

心事備忘錄

2021/12/28

內在效度（internal validity）vs. 外在效度（external validity）

沒有留言:

張貼留言