背景:心理學真的有學過MBTI?
在2024年,在與朋友聊天的時候,MBTI不知不覺滲入了許多情境裡:
- IG/FB的自我介紹打著「你好,我是ENFJ」
- 個案知道你是心理師,會先來問「你有沒有在追OOO的心理學筆記」
我還記得自己的老闆詢問我怎麼把MBTI導入公司時,時我真的大驚失色。第一個直覺是:
我怎麼沒學過?
絕對是自己疏忽學業,立刻回家翻找教科書,並且確定自己真的有疏忽學業。在心理測驗教科書Psychological Testing: History, Principles, and Application 6e (Gregory, 2011) 真的有大概三頁在講這個測驗。妙的是,他前面講完信度、效度、以及關於這個測驗不同版次更新的一些議題之後,留下了一句話:
⋯⋯研究者仍持續建議對MBTI使用保持謹慎,特別是只僅從4個英文字母的公式中進行推論。Partly in reaction to the paucity of independent research on newer versions of this test, reviewers continue to suggest caution in its use, especially when making simplistic inferences from the 4-letter type formulas (Pittenger, 2005).
到底為什麼需要謹慎?這個測驗又有什麼問題?
MBTI是什麼?
MBTI(Myers-Briggs Type Indicator)是基於心理學家榮格的理論,由Katharine Cook Briggs和她的女兒Isabel Briggs Myers發展而成的一種性格測驗。它將人們的性格分為四個維度:外向(E)與內向(I)、感覺(S)與直覺(N)、思考(T)與情感(F)、判斷(J)與知覺(P)。每個人都會根據這四個維度被分類為16種不同的性格類型。很快我們可以發現幾個特徵:
- 你一定會被分成某個類別,沒有中間的選擇
- 這四個向度好像每個人都有,沒有不存在的可能
這幾個特徵似乎就預先顯示了可能的問題。為了希望可以知道到底有哪些批評,以及官方對批評的反駁是什麼,我們從Myers & Briggs公司在官方網站列出「對MBTI常見的九個批評」中列出的項目。標題是每一個批評的項目,而Myers & Briggs公司對這個批評的回應則是引用文的斜體。然後,我們再來看看這些回應有什麼問題。
先說結論
- 心理測驗就是一套工具,目的在區分差異。MBTI既然是要識別人的差異,工具的品質就要能夠被檢驗。近期有很多人主張這個不是「測驗」,是一種認識自己的方式(或其他等值的各種說法),都要懷疑是不是在意圖逃避測驗本身的問題。
- MBTI在1962年被出版,到了2017年對MBTI做信效度的後設分析,在211篇論文中只有7篇納入分析。這顯示關於這個測驗缺乏奠基在現代研究品質要求下所產出可靠的研究結果。
- 五周到五年的重測信度,六成(59%)的人都會有一個以上的分類不同。信度整體來說堪用,E-I 0.764、S-N 0.753、J-P 0.775,僅是可接受的信度,說不上是非常好。T-F 0.612為不可接受。
- 部分效度研究支持四個因子效度。然而考量了受試者都是在學院收的大學生資料,MBTI最適合的應用環境或許就是在學術場域。
- 測驗最大的問題就是強迫分類。
爭論一:作者不是心理學者
原文意見:這是事實。Katharine Briggs 在密西根州的密西根農業學院(現為密西根州立大學)獲得了農業學士學位,成績優異。Isabel Myers 在賓夕法尼亞州斯沃斯莫爾學院獲得了政治科學學士學位,同樣也是成績優異。MBTI評估的一個常見批評是,其創建者缺乏心理學的正式教育,因此無法得出可靠的結果。然而,許多沒有在特定領域接受正式教育的人也做出了重要的貢獻。
是不是心理學者一點也不重要
我們評估要不要用一個測驗,通常不在意測驗的作者是誰。有很多非心理學訓練的學者都會心理學產生了非常巨大的貢獻。這應該不構成我們選擇測驗不用MBTI的理由。所以,這可以算是最不重要的爭論。
爭論二:MBTI評估分類型而非光譜
原文意見:確實,大多數人格特質是在一個光譜上衡量的,展現出「太多」或「太少」的某種特質通常被認為是有問題的。然而,將此作為對MBTI評估的批評是一個錯誤,因為MBTI評估並不是設計來衡量特質的;它的設計是用來識別個性上的差異。(However, citing this as criticism of the MBTI assessment is a mistake, because the MBTI assessment isn’t designed to measure traits; it’s designed to identify differences in personality.)
心理測驗,就是發展來找「差異」的工具
這是討論心理測驗怎麼被發展和使用的問題。
假設我們就是個心理學家,有個喜劇公司委託我們開發一個「笑點」的測驗工具,希望有一個測驗,測了之後就知道這個人的「笑點」是高或低,高的再放進場,這樣大家氣氛才會嗨。作為被委託的心理學家,這時候我們會怎麼做呢?
- 確認「笑點」就是我們的測量的標的。學術名詞叫做構念(Construct)。
- 接著,發展一系列測驗題目。例如:「別人都覺得我很容易發笑」。
- 有了這個題目之後,我們要決定他的答題方式。一個常見的做法是讓他變成是連續變項的選擇,比如1分到5分。當然也有其他作法,比如回答「是」或「否」。
- 找到一大群具有代表性的受試者填答。
- 分析回收的填答結果,得到資料的分配樣態描述。最重要的是平均數和標準差。
- 最後,怎麼知道受試者是笑點「高」或「低」?就是看答題離平均數的距離。距離越遠,就是笑點「高」或「低」的人。
換句話說,心理測驗從開發到使用,就是在找出那些差異的人。原文所提,「它的設計是用來識別個性上的差異」(it’s designed to identify differences in personality),這就是心理測驗的功能。在心理測驗的統計上,相較於平均數、眾數這種集中趨勢的指標,我們更關心測驗的標準差、變異數、偏態等離散趨勢的指標,這樣這個測驗才有能力「把人區分開來」。
簡單來說,這一個整句話「MBTI不是設計來衡量特質,是用來識別個性上的差異」就是表明「我是有能力識別個性差異的心理測驗」。既然如此,就要符合心理測驗在信效度的要求。
「有沒有問題」和方法無關,和測量什麼有關
找出差異很大的人,與他們有沒有問題完全無關。在這個例子中,笑點「高」跟「低」就只是個測量的標的,一點問題也沒有。有沒有問題是取決於關心的「構念」是什麼。「有沒有問題」這個說法本身就有點問題:有些測量是評估症狀,但絕大多數都是中立的,跟笑點差不多等級(如果你相信愛笑是種性格特質的話)。
爭論三:榮格提到「沒有絕對的外向或單純的內向人」。
原文意見:這似乎與人們對外向或內向有偏好的觀點相矛盾。然而,對榮格理論的進一步理解有助於解釋這一說法。
榮格的心理類型理論聚焦於感知(知覺)和判斷(判斷)這兩個主要的「功能」,這兩個功能使我們能夠在生活中有效地運作。我們使用感知過程(感覺-直覺)收集信息,並使用判斷過程(思維-感覺)做出決策。我們也有外向或內向的偏好,榮格稱之為我們的「能量方向」。榮格認為,需要同時啟動我們的判斷和感知過程。沒有這兩個過程,一個人將接收訊息而不做出決策,或者在沒有必要訊息的情況下做出不明智的決定。…
榮格在這一說法中並沒有否定自己的理論。事實上,他是在支持它。
由於這一篇主要是從心理測驗的角度出發,這個批評指向榮格的性格理論本身的內涵問題較難評論,也不是每個心理師對榮格的理論都很熟悉到能評論。我們先跳過他。
爭論四:榮格提到:「每個個人都是一個例外。」
原文意見:榮格在《心理類型》中再次提到:「每個個人都是一個例外。」這句話被用來證明榮格的理論是無效的,因此批評MBTI評估。然而,在上下文中,這句話看起來完全不同。以下是完整的段落:
儘管無疑有些人的類型一眼就能被認出,但這並不總是這種情況。通常只有仔細觀察和權衡證據才能進行某種程度的分類。儘管兩種對立態度的基本原則可能是多麼簡單和清晰,但在實際現實中,它們是複雜的且難以理解,因為每個人都是一個例外。因此,一個人永遠不能給出一個描述一個類型的描述,無論多完整。這種描述都適用於超過一個人,儘管在某些方面,它恰當地刻畫了成千上萬的其他人。遵從是一個人的一面,獨特性是另一個。分類不能解釋人類的心靈。儘管如此,對心理類型的理解為更好地理解人類心理學打開了大門。
榮格完整的陳述建議我們:避免對某人的人格類型作出假設。承認人格類型是複雜的。避免試圖使用類型描述來解釋某人的整個心靈。榮格將他的人格理論與指南針上的點做比較,他說,「它們同樣是任意的,同樣是不可或缺的…我無論如何都不會放棄這個在我心理探索中的指南針。」正如Myers後來所說,「一個ENFP就像每個其他ENFP,像一些其他ENFP,也像沒有其他ENFP。」
這個批評看起來有點複雜,摘要是:每一個人都有其獨特性,心理測驗不可能用類型的方式「完整」描述每一個人到底有多特別。
性格測驗只能描述特定所測量面向的特徵
性格測驗不可能完整描述每一個人嗎?對的。就算是用光譜而不是類型分的測驗也是一樣。舉例來說,大五性格理論是因素分析得到的結果。在執行因素分析過程中,五個因素的解釋不可能將100%的變異解釋完畢,一定會有離散的資料沒有被顧到和解釋的部分。
性格測驗只能描述特定測量的特徵,所有的性格測驗都無法做到完整描述一個人。在這個意義上,原文反駁應該是正確的。/
爭論五:「每個人都是中間性格,既不外向也不內向」
原文意見:在2013年,大五人格模型被用來普及「中間性格」(ambivert)的概念,試圖找出導致最具生產力的銷售人員的人格類型。大五人格測量五個人格特徵,這些特徵我們都有,可以用連續的尺度來測量。其中一個特徵是外向性,是該研究的重點。研究表明,最成功的銷售人員在外向性尺度上得分在中點;然後將這些人稱為「中間性格」。
大五人格模型和MBTI評估是非常不同的。雖然MBTI評估與大五人格存在相關性,但大五人格測量特質,而MBTI評估則使用基於類型的「分類」方法。
這種差異的一個例子是「利手性」——你用來書寫或執行其他日常任務的主導手。大五人格將利手性測量在一個連續的尺度上,顯示大多數能夠充分使用兩隻手的人確實會使用兩隻手,因此落在尺度的中間。MBTI評估旨在確定某人更喜歡使用哪隻手——感覺最自然和舒適的手——同時承認每個能夠使用兩隻手的人可能會在一定程度上使用兩隻手。
沒有道理分不出來的狀況仍然要分類
我們前面提過,心理測驗在解釋的時候,關心的是離散值,距離平均數越遠的測量結果越具解釋意義。除了MBTI以外,也有許多的心理測驗也測量內向性和外向性。我們可以舉幾個例子,看一下不同的測驗怎麼處理:
- 大五性格(Big-Five):在大五性格測驗關心的五個向度中,其中有一個就是外向性E (Extroversion)。這個是一個連續向度,只有在測量的結果偏離平均超過一個距離有其解釋意義的狀況才會說其是內向或外項。沒有達到距離的這些結果,就是前述原文意見的「中點」,不是外向也不是內向。
- 羅夏克墨漬測驗(Rorschach):在羅夏克墨漬測驗中,內向和外向是來自於不同的資源,並且衍伸出不同的問題處理風格。外向性的人主要的資源是正向情緒,與內向性人擅長思考有所不同。這也衍伸他們的問題解決方式不同:外向性的人會採取試誤策略(try-and-error),而內向性的人會仔細思考後再行動。但重點是:羅夏克接受沒有明顯特質的人,他們在內向和外向都可能很強烈,兩者都是可用的資源,沒有一定的問題解決策略。
外向性 | 內向性 | 中性 | |
資源樣態 | 正向的情緒 | 思考 | 正向的情緒與思考都是可用的資源 |
問題解決方式 | 試誤 | 仔細思考後再行動 | 沒有一定的問題解決策略 |
所以重點是:相較於MBTI,其他心理測驗都接受「在一個特質上沒有達到解釋意義」,但MBTI會強迫分類,你不是外向人(E)就是內向人(I)。這會導致:
- 有一些程度沒有達到顯著、不具解釋意義的結果,被強迫分到其中一組。
- 因為資料是常態分配的,絕大多數的人都在中間,因此被強迫分到其中一組的人還很多。
- 中間的人偏離平均都不遠,因此考慮了測量誤差,就很有可能下一次測量在不同組。
強迫區分一組對測驗來說是很沒有必要的。(回去考慮官方網站舉的「常用手」例子其實也沒有道理:如果兩隻手都可以用,為何一定要說他就是擅長其中一隻?)
爭論六:心理學者不使用MBTI進行評估(Assessment)
原文意見:MBTI的批評者引用《華盛頓郵報》2012年的一篇文章,指心理學博士、CPP公司(現為Briggs-Myers公司)的前主席卡爾索倫森(Carl Thoreson)的話:他說使用MBTI評估「將會受到我的學術同僚的質疑」。
再次強調:上下文很重要。文章中所提的是,索倫森博士的研究重點是改變A型人格以降低心臟病發作率。MBTI評估並不測量A型人格;因此,MBTI顯然不是索倫森博士所討論主題的合適工具。另外,臨床心理學主要集中於診斷和治療,MBTI評估則專注於識別正常、健康人群之間的自然差異。MBTI評估從未旨在診斷任何事物。所以完全是兩碼事。
依據要測量的構念選用適當的工具
如同我們前面所提及:「有沒有問題」和方法無關,和測量什麼有關。A型人格是指一種容易易怒和緊張的性格特質,研究發生此類性格的人較容易有高血壓。由於這類研究發現心理狀態確實會影響生理表現,故其在健康心理學的研究上有其重要性。因此,文章認為「MBTI評估並不測量A型人格;因此,MBTI顯然不是索倫森博士所討論主題的合適工具。」這句話是正確的。
MBTI在心理學者使用的情境?很低。
但這沒有辦法回應「心理學者使不使用MBTI進行評估」。以下是幾個論點:
- 首先,臨床心理學大概是心理學訓練中最大量使用心理測驗於實務情境中的角色,而我們確實不使用MBTI。臨床心理師常用的性格測驗工具,以台灣來說,包括性格習慣態度量表、米蘭多軸量表等等,以及觀察性的羅夏克墨漬測驗。這些測驗工具對焦的測量構念也確實比較病理性。
- 但就算是目的要「識別正常、健康人群」之間的心理測驗工具,也沒有MBTI。主要的問題還是來自於信效度。關於信效度的問題,我們留到爭論八、九來處理。
爭論七:MBTI評估旨在取悅(flatter)受測者
原文意見:這個常見的批評再次基於對MBTI評估目的的誤解。
MBTI評估目標,在幫助我們識別我們在性格四個方面上的偏好。偏好對中每一偏好的任何一側都同樣有價值——沒有「更好」或「更差」的偏好或人格類型。MBTI評估不在診斷,也不是為了辨別好與壞或正常與異常的人格。以這種方式將MBTI評估與心理診斷混淆是一種錯誤。事實上,MBTI評估根本不是一個「測試」;它是一個評估,一個對受測者人格偏好的探索。
當然,16個MBTI類型的描述包括與每個類型相關的典型行為和優勢,這些描述是故意以積極的方式描述的。然而,這些描述也包括每種類型的挑戰和可能的發展領域。這些挑戰是榮格所謂的「個體化」的一部分——「個人人格的發展」,在朝向和實現自我的過程中。
讓受試者開心不太可能是心理測驗建置的目的
這個爭論其實相對不重要。仔細想想:我們有沒有哪個測驗目的就是讓受試者做完覺得「爽」、都被稱讚、覺得開心?想想還真的沒有。取悅受試者不太可能是心理測驗建置的目的。想開心有很多方法,打電動、看看電影就好,還要花時間做測驗跟自己對話,也太麻煩了吧?
類似的句子又再度出現:「MBTI評估根本不是一個測試;它是一個評估,一個對受測者人格偏好的探索」。目的在辨識差異、執行分類,卻以各種測驗的同類詞(測試、評估、衡鑑⋯⋯)意圖否認工具本身在信、效度的要求。
爭論八:MBTI測驗結果不穩定
原文意見:批評MBTI評估的文章,往往引用一個信度研究,該研究結果顯示:「在經過五週的重新測試期後,有50%的受訪者在一個或多個MBTI量表上,獲得了不同的分類」。這一統計數據的來源是《職業規劃與安置期刊》(Journal of Career Planning & Placement)發表的一篇文章,引用了一項1979年的研究。
MBTI評估的第一個商業版本Form G於1977年發布。這個版本的評估早已過時。目前的版本,MBTI Global Step I評估,於2018年發布,並使用一種稱為項目反應理論(編者註:Item Response Theory, 簡稱IRT)的統計方式來選擇和評分項目。
自從1977年以來,許多過時或效果較差的項目已經從評估中刪除。…期刊文章中是在引用過時的數據,和一個幾十年來都未使用的MBTI評估版本的過時信息。MBTI Global Step I評估的測試-重新測試相關性,在6至15周的時間段內,所有四個偏好對的相關性介於0.81到0.86之間,表明其信度非常好。
對一個心理測驗而言,這是非常重要的問題:如果測量結果無法穩定,就像是一把尺的間距大小常常變來變去。測量的變異如果是來自工具的變異,結果就沒有參考價值。但如果把「MBTI怎麼隔一陣子重測,分類結果就不同」的問題進入Google搜尋,會得到一些可能的因素跟回應:
- 沒有付錢做原版。原版的題目跟網路上可取得的題目並不相同。
- 對題目不夠理解:比如說題目提到「感覺」是指外界訊息,但一般人會理解為「心理的感覺。」
- 對自己不太了解:因為對自己不太了解,而當下答題時就是依當時的結果做出判斷,導致結果不同。
- 有「面具人格」:就是有外顯的自我跟內在的自我,也會影響測試中答題的想法。
- 受到環境影響。
以上除了「沒有付錢做原版」可能有其道理之外,剩下的都不是理由。對心理測驗發展者而言,這些說法聽起來都像是在批評受試者沒有把事情做對,讓這個測驗不準。
各種論點中,我唯一覺得有點意思的是以下這句話:
我們同意這個說法。但這個說法可以用在任何「理論形容人格差異」的領域,如星座、血型,或紫微斗數。在測驗技術上,測量的結果是否穩定,這是不能迴避的問題。
研究認為的MBTI測驗信度:整體只到「堪用」,T-F是裡面信度最低
心理測驗教科書Gregory(2011)的Psychological Testing: History, Principles, & Application (6e) 引用原MBTI測驗指導手冊的內容:指導手冊綜整一些研究後,對間隔五週到五年的重測信度說明如下:
- 41%的人的四個分類都相同
- 38%的人在四個分類中,維持三個相同,一個分類不同
- 17%的人在四個分類中,維持兩個相同,兩個分類不同
- 3%的人在四個分類中,只有一個相同,三個分類不同
也就是說隔一陣子再測一次,六成(59%)的人都會有一個以上的分類不同。
較可靠的研究是來自Randall, Isaacson, & Ciro (2017) 試圖要為MBTI的測驗信效度做系統性回顧和後設分析。三位研究者以系統化的方式取得1975年至2017年之間,所有關於MBTI的相關文獻共211篇,經過系統性排除後僅3篇以後設方式列入信度分析,分析結果如下:
- Extraversion-Introversion:0.764
- Sensing-INtuition:0.753
- Thinking-Feeling:0.612
- Judging-Perceiving:0.775
這個研究有大概可以這樣做結論:
- 四個分測驗中,有三個大於0.7。大於0.7絕對說不上是「好」的信度,大概就是「堪用」等級。但也就是「堪用」等級而已。
- T-F指標信度較其他三者糟,僅0.612。這個結果就是真的不到「堪用」等級。
或許批評者也會說,這個研究只取了三篇信度研究,他的代表性不夠。我們同意這個說法,但這正反映了這個測驗的真正問題:研究者從1975年開始的研究,一共取得211大大小小不同的研究結果,但最後僅有3篇成為能正式列入分析的文章。仔細檢視文章的各種篩選條件,並沒有真的太過嚴苛。不要忘記,MBTI第一版是在1962年出版,至今已約60年。這顯示60年來,關於這個測驗的研究,缺乏奠基在現代研究品質要求下所產出可靠的研究結果。這才是真正的問題。
爭論九:MBTI評估無法預測誰會在特定職業中取得成功
原文意見:對MBTI評估的一個常見批評是,沒有證據顯示MBTI類型與職業成功之間存在積極相關性。這是事實——MBTI評估並不旨在預測在特定職業中的成功。
MBTI評估的設計是描述,而不是預測。不幸的是,就像其他心理方法一樣,有時會被誤用。例如,做出招募決定。這樣做會將偏好與技能和能力混淆在一起。更糟糕的是,雇主可能會因為根據不適用於該目的的系統,排除合格候選人而面臨訴訟風險。
人格類型不表示技能、能力、工作表現或未來成功。或許有關職業吸引力的研究顯示,某些人格類型會傾向於某些職業。然而,重要的是要記住兩個重要的事實:首先,顯示對某種職業道路的吸引力,不能被解釋為預測在該職業中的表現。其次,雖然研究表明某些人格類型在某些職業中占比較高,但研究也表明幾乎每一種已知職業中都有所有16種人格類型的代表。
到底一個性格測驗可不可以拿來預測未來工作成就表現?當然可以。前提是:
- 測驗本身有正確測量到想測量的構念(具備效度)。
- 測驗與工作表現相關。
我們來看看關於MBTI在這兩個東西的要件表現狀況。
MBTI的效度:
Randall, Isaacson, & Ciro (2017) 最後認為通過篩選可作為效度檢視的文獻僅四份,以下是這四份的內容:
- Cohen, Cohen & Cross (1981):以MBTI Form F和Behavior Styles Invetory測量,支持MBTI在E-I、S-N、和T-F有建構效度。J-P則未獲支持。受試者為已婚,並至少有一位是大學在學學生。
- Jackson等人(1996):以驗證性因素分析1030個成人並以MBTI Form F和性格大五模式相較,認為支持原榮格的四因子模式(“four-factor structure similar to the original Jungian structure“)
- Tzeng et al. (1984):Form G主張四個簡單結構符合MBTI理論(clear simple structure with the resultant empirical factors being matched almost perfectly with the theoretical scales of the MBTI)
- Thompson & Borello (1986):收359個大學生,以MBTI Form F進行因素分析,結果支持MBTI的建構效度。
但Randall, Isaacson, & Ciro (2017)對這些研究的結論是:
考量了受試者都是在學院收的大學生資料,MBTI最適合的應用環境或許就是在學術場域。(Given that the subjects in the included studies were college age, the MBTI’s most appropriate applications may be in academic settings.)
也就是說,在目前已發表並被接受的論文中,受試者樣本都僅侷限在大學生。這樣的結果是否能類推出去是有問題的。
我的感想
其實說了這麼多,想法就是:拿來聊天可以,不要真的用。這個工具可能可以是個媒介,但不是一個可靠的工具。
有天在Segreto di Pulcinella 波奇尼拉的秘密 在他的專文「公司開會遇見的幾種人格」中有這樣一張圖也是分類的方式,是不是看起來有點像呢?就是感覺也很有道理,反正最後會走到一個地方去的,至於到底對不對…就之後再說吧。
參考資料
附上我覺得很棒的換日線對於MBTI的分析和評論報導:
https://crossing.cw.com.tw/article/16158
有一位心理師認為自己在MBTI上有特別的專精,為了平衡,我也附上他的看法: