MTT:第十章

教材目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

題庫目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

背景介紹[]

這一章談施測中公平性的主要問題。其目的一方面是要強調在施測和評量中，公平性在各方面的重要性，另一方面是要為技術標準營建一個氛圍。後面幾章會更詳盡地闡述一些公平性方面的問題，這涉及到測驗使用者的責任，受測者的權利和義務，多元語言背景受測者的施測和殘障人士的施測，在第十二章至第十五章也將闡述一些施測和評量在心理上、教育上、聘僱甄選和資格審查方面，以及計畫評鑒實務方面的公平性問題。

社會大眾一直很關心測驗中的公平性問題，但我們很難把它所涉及的一些複雜因素在這裡一一討論。要對公平性問題作全面性的考慮，得探討與各種施測目的有關的許多功能，包括讓我們這個社會裡達到機會均等的大目標的功能，還要考慮到測驗的技術特徵要求，測驗結果報告的要求，以及對次群體或個人測驗表現的規律而形成的正確的或錯誤的看法。一個透徹的分析還會審查針對指導測驗用途和傷害性的實務行為的補救措施的規定、法則以及案例法。本《標準》不指望對所有這些大的問題處理得處處得體，因為在專家和有心的觀察人士之中，對於其中某些問題，偶爾有截然不同的看法。於是本《標準》的焦點就放在測驗各方面、施測和測驗用途這樣一些通常是製作、使用和解釋測驗的有關人員的職責，以及那些專業和技術上己有一致意見的測量尺度所體現的特點。

事實上，沒有一個測驗具有百分之百的信度，同時，效度在任何情況下也都是一個程度上的問題。如果除此以外沒有別的理由的話，對每個受測者做到絕對公平是不可能的，其實也沒有任何其他的甄選或評鑒機制是完全公平的。當測驗的設計和使用恰當時，測驗也確實能夠推進公平和機會均等的社會目標。測驗的設計、使用、或解釋中出現的嚴重技術問題當然應當指出來，但是任何特定環境下施測的公平性，應根據可行的測驗和非測驗替換措施來判斷。一般做法是大型測驗多半會透過認真審閱和具體數據的證據，這兩關的檢查，以將偏差的程度降至最低。一個設計完好的測驗裡對於公平性的重視程度，會明顯優於許多其他另類評量方法。還有關鍵一點要記住的是，施測環境是人與人之間的事情。受測者和施測人員的人際互動應是專業的、禮貌的、互相關切的和尊重的。在多數考場裡，施測人員和受測者的地位是非常不平等的。由測驗結果得出的專業性的推斷和報告，顯然可能影響到受測者的一生。因此對這些測驗使用和解釋方面的重視，決不亞於對測驗在技術方面的考量。

正如在專業教育和培訓中強調的一樣，測驗使用者應注意到受測者和施測人員的因素也有可能影響公平性。注意人際關係因素總是重要的，特別是當受測者有殘障或是在族裔、人種或宗教背景、在性別或性取向、在社會經濟地位、在年齡或在可能影響受測者和主考互動關係任何方面與主考不一致時，公平性問題可能顯得更突出。

對於「公平性」的各種觀點[]

「公平性」這個詞在許多場合都用，但沒有技術上的意義。可能有兩個人都認為在施測中將保持公平性作為一個希望達到的社會目標，但對某個具體的測驗計畫的公平性可能會有完全不同的結論。以下勾勒出的是公平性這個詞的四個主要特徵，但也需注意到在技術性的和通俗性文字中也會出現許多其他的解釋。頭兩個特徵是指公平性為沒有偏差（bias）和在施測過程中對所有受測者一視同仁。許多人一致認為測驗應免於偏差（如以下定義）並在施測過程中公平對待全體受測者（如：在施測程序、評分和分數的使用上，是相同的或相等的），第三個特徵是指測驗結果對受測者次群體的平等性。根據人種、族裔、性別、殘障種類或其他特點而劃分的次群體，它的公平性即是指要求所有的次群體須具有一樣的測驗及格率。這種看法在專業的測驗文獻中幾乎被全盤否定。

一個更為廣泛被接受的說法是，不管是哪個次群體裡的受測者，只要他們處在同等能力地位，對於測驗要測量的構念，他們平均而言應得到同樣的分數。然而，對受測者在所考構念的程度上的測量並非完美，而這種要求對指導測驗而言很少能作修正。公平性的第四個定義關係到，一個學業測驗所包含的內容材料，是否與受測者在學習機會（opportunity to learn）方面達到平衡。儘管對學習機會在某些具體情形下與測驗公平性的關聯會引起不同的意見，但一般認為合適的學習機會與學業測驗的某些用途和解釋有明顯相關，但和其他的用途又明顯無關。

論沒有偏差的公平性[]

偏差（bias）在這裡是一個技術名詞。當測驗本身有缺陷，或是使用測驗的方法導致明顯對某一次群體的受測者分數有不同的意義時就會產生偏差。當這種缺陷證據從不同的次群體裡在解題規律上的證據被發現時，人們就用試題偏差（item bias）或差異性試題作用(Differential item function, DIF)表示。當證據是通過比較不同次群體在分數和其他變量間相聯繫的規律時被發現時，就會用「預測的偏差」這個術語（predictive bias），偏差這個概念及探測偏差的技術在本章和此書的其他章節也會討論到。一般認為良好的施測實務裡應該考慮到偏差的問題。

論施測過程中同等對待的公平性[]

大家一致認為，在整個施測過程中平等對待受測者是測驗公平性的必要條件。同樣還認為對全體受測者一視同仁需要考慮的不僅僅是測驗本身，還有施測的目的和環境，以及使用分數的做法。一個設計得好的測驗不會有真正的公平不公平問題。但將測驗用於一個特定的情形裡或特定的受測者本身上時就有可能公平或不公平，不公平會產生個別性的後果，也會產生整體性的後果。

不管施測目的如何，公平性要求全體受測者能有一個可比較的機會來表現他們在測驗所測量的構念上的能力。公平對待受測者也包括以下因素：如足夠的施測條件，受測者對測驗形式有同等熟悉的機會。在將個人或集體測驗成績公布於眾的情形下，平等對待也意味著這樣的報告應該是準確且訊息非常豐富的。

施測條件的調整[]

公平性也要求所有的受測者都能享受到合乎規範的施測條件，操作周全的測驗標準化和施測條件的標準化一般有助於保証受測者能有可比較的機會來表現他們要測量的能力或特質。但在有些情形下，測驗過程中某些對大多數受測者來說並不具有干擾的措施，可能會阻礙了某些特定受測者或次群體展現他們對所考構念的能力（例如：由於語言或殘障原因）。在有些情形下，如修改一下標準程序的話，受測者間互相可以比較的空間有時就更大一些。這種修正，有時後會因法律的規定而要求執行，有時後也會因法律的規定而不能執行。在所有情形下，除非是有明文規定的調整措施，否則全體受測者都應該遵守標準化程序。

受測者最好也有均等機會準備測驗，任何情況下受測者應有同等管道獲取施測單位和主持單位提供的材料。這些材料描述測驗內容和目的，並為受測者就如何熟悉和準各測驗指點迷津。除確保受測者有均等管道接觸公認的準備材料外，這一原則也包括不能泄露測驗內容的保密問題。例如，假始有些受測者捷足先登知道了保密性質測驗的內容，那麼基於這些人的測驗成績所作的決定，相對於那些沒有辦法事先接觸到測驗的人來講，就有失公平。對於測驗成績的後果對受測者個人的前途有重大影響的測驗，如果測驗中因程序不規範而遭指控，如果受測者個人的分數遭到質疑（或可能沒有報告）或如果有類似特殊情況發生時，所有的受測者都應該有機會對相關的決策人員提出異議。

測驗結果的報告[]

最後，公平性的概念在施測過程中作為同等對待理解時也延伸到個人或集體的成績報告。個人分數在大多數情況下是保密的。保密性應受到尊重；只有在合適場合下才能出示。當報告測驗分數時，無論是集體分數還是個人分數，都應該準確並有內容。特別重要的是，當向非評量專業的聽眾報告測驗結果時，要使用恰當的語言和詞句，並盡量在提出報告時減少不當解釋的可能性。例如，在報告次群體分數差異時，加上額外的資料解釋，諸如受教育機會不均等這樣的扺消因素（confounding factor），可能有助於減少對於測驗結果的曲解，增加明智使用測驗的可能性。

論施測結果的公平性[]

那種公平即是要求所有次群體之間的及格率可互相比較的說法，在專業文獻中一般不被接受。多數施測方面的專業人士可能會同意以下這種說法：在許多情形下，次群體的測驗成績差異應引起高度重視，並需檢查測驗偏差的可能來源，但次群體之間的差異本身並不能說明某個測驗的實際運作是否公平。有人可能認為，當測驗用作挑選人員時，不管受測者來自任何次群體，所有那些在評判標準上可能具有良好表現的受測者，都應該具有相同的中選機會。不幸的是，極少有直接手段能檢定這種理想狀態是否已經達到。進一步而言，如果一個次群體的分數分佈和另一個次群體不一樣時，使用任何一個不楚和評判準則完全契合的測驗，一般而言是無法達到這種理想狀況的。

許多施測專業的人都會同意這個說法，即如果一個測驗沒有偏差，並且受測者在測驗過程中也得到公平待遇，那麼公平性的條件就滿足了。也就是說，就給定的測驗預定用途的效度證據（包括沒有偏差和公平對待的證據）而言，不管次群體層面上的測驗結果是否有區別，公平性已經建立。這種說法並非一定意味著不相等的結果就可一概忽略不計。它們可能對產生新的有關偏差和公平對待的假設很重要，但這時次群體層次的結果不相等與測驗的公平性沒有直接關聯。可能因法律需要時對次群體之間的分數差別做些考察。也可能要求在其它條件等同的情形下，進一步使用一種將各個次群體聞的分數差別降至最低的替換施測方法。本章的標準即適用於和法律及規定方面的標準相一致的場合。

論學習機會的公平性[]

公平性的最後一個概念和學業測驗有關。在許多情形下，學業測驗是用來檢測正式教學後，受測者知道多少，能做多少。當有些受測者沒有機會學習到測驗內容時，他們的成績很可能會偏低。測驗分數可能可以準確反映出受測者的知識和能力，但低分可能是因為受測者沒有機會學習所考的內容，也可能是有學習機會但沒有學好。舉例而言，當受測者因沒有機會學習測驗內容而得分偏低，但又以他們的低分作為不能從高中畢業的依據時，這種做法就會被認為是不公平。這個問題在第十三章（教育測驗）裡有更進一步的討論。

這個公平性的概念起碼引起三大難題。首先，「學習機會」在實際運用上很難定義，特別是在受測者層面上。機會是一個程序問題，進而言之，有些重要的學習結果的測量可能就是需要用受測者沒見過的材料。其次，即使能夠將一群受測者所學的課程內容都作成書面說明，但也很難確定每個學生所學的內容都一樣。最後，眾望所歸的期盼是要確保測驗所取得的成績是証明受測者具有一定的資格和能力，那麼對於因沒有足夠學習機會學習測驗內容而得到低分的受測者授予畢業証書，意味著要讓某個不具備合格條件的人，也獲取畢業証書。

要注意的是，學習機會一般在判斷徵聘測驗和資格審查測驗的公平性時，是不扮演任何角色的（見第十四章），在招生的測驗中也沒有任何分量。在這些情形下，公平做法是測驗應涵蓋所有的預先應該具有的知識和技能。然而，也有例外的情形，即為徵聘或資格審查測驗決定測驗內容的單位，同時也是規定受測者為準備測驗而必須遵循的課程的單位。在這種情形下，測驗單位有責任做到，要把測驗的內容全部都包括在課程所規定要教的內容中。

與測驗內容和解題過程有關的偏差[]

在測驗和施測中，偏差這個詞是指與構念無關的因素，而這些因素又會明顯地導致次群體受測者的分數規律性地偏高或偏低。這種與構念無關的因素可能是由於測驗內容選擇不當或是測驗的指示不清而引入。如果評分規則未能給某些正確的解題方法滿分，而這種解法對某個次群體受測者比另一次群體受測者更常用時，構念無關因素也會產生。儘管沒有一種證據是一目了然的，但是這些偏差的來源，還是可以就測驗內容在不同次群體答題的內部結構的比較中，以及在測驗分數與其他測量指數的相關的比較中，找到證據。

與內容有關的測驗偏差來源[]

由於測驗內容選擇不當所引起的偏差，有時可以在審查測驗內容時發現。在有些情形下，測驗編製單位會組織一個由多位不同文化背景的專家組成的審查小組，來審閱測驗內容的語言，看看是否不同背景的人會有不同的解讀；也看看測驗材料中是否具有冒犯性或令人情緒不安的內容。若是實作評量的話，專家小組還要審閱評分規則。例如，一個用來測量文字類推論的測驗，應包括文字的一般用法，而不應該使用那些與特定的行業、學科、族裔、或地點相關的文字或表達方式。當測驗內容對某一類受測者(如男性)比另外一類受測者(如女性)特別地重要性和相關性時，可以選用對另外一類的受測者(如女性)特別重要或相關的測驗內容來加以平衡。

在學業測驗方面，根據課程大綱來編擬的測驗，可能會有與內容有關的測驗偏差。人們可能會質疑某個測驗代表其整個內容領域的程度如何，以及就給定的分數解釋而言，該領域是否合適。例如，一個有關美國19世紀的歷史測驗可能相當強調1812年戰爭、墨西哥戰爭、南北戰爭和美西戰爭的史實，但如果某一州的課程大綱並不注重這些戰爭，而將重點放在諸如社會和工業發展方面，那麼該州的受測者就會處於相對劣勢的地位。偏差也可能是源於測驗作答指示不清楚或評分規程對某個次群體的受測者比對其它次群體受測者更有利。譬如，認知能力測驗常要求受測者根據一個不具體說明的規則將物品分類。如果一個分類活動是根據刺激物的功能計分，但某個次群體受測者卻是根據物品的形狀來分類，這時就可能產生錯誤的測驗解釋。同樣，如果一道文字題的最高分只是給那些答題超過試題要求的受測者時（如受測者提供多於試題要求的內容或闡述），那麼不懂其中奧妙的受測者只是根據指示答題，得到的分數就會低一些。在這種情形下，測驗機智（test wiseness）便成為分數中與構念無關的因素。

用仲裁方法審查測驗和試題的做法，常需要通過統計方法來進行補充，以鑒別測驗中明顯對某一受測者次群體有不同作用的試題。差異性試題作用（Differential item function, DIF）在這種情形下會存在：即在回答某道題時，相等學業水平的受測者視他們所隸屬的次群體而在平均值上不同。如果將來自各次群體的受測者根據他們己証實的能力來劃分小組，同等能力的小組答對一道題的機率卻不相等，那麼有證據說明這道題沒有按它應該發揮的功能工作。這道題可能測量某種測驗以外的東西，或是對不同的小組測量不同的熟練程度，這種試題可能會對所測構念的某個很小的方面提供有效的測量，或是卻帶入某種與構念無關的因素，因而對某個次群體的受測者造成有利或不利效果。雖然檢查DⅠF的方法為提高測驗品質帶來希望，但在確認試題顯示DIF的原因或實質方面並無重大進展。也就是說，即使通過統計方法証明該測驗的試題具有DⅠF的現象，人們也很難找到具體造成分數差異的原因，很難在已經確認有DⅠF的試題中，鎖定一個共同的原因。

與答題有關的測驗偏差來源[]

在有些情形下，與構念無關因素的出現，是因為試題的出法引起多種出乎意料的答案，或出題者所未曾預料到的解題方法。例如，在填寫診斷問卷時，當事人可能試圖提供他們認為施測者希望得到的答案，而非最能夠描述他們自身狀況的答案。如果讓這種回答任其發展到一個次群體的回答比另一個次群體更為典型的程度時，可能導致偏差。當答題形式對某個次群體比另一個次群體而言，是更困難時，也可能導致偏差。例如，測驗成績可能仰賴一些所要測量的構念無關的能力（如英語熟練程度或良好的手眼協調能力），而對部分受測者造成障礙。一個過度仰賴英文閱讀能力的數學應用測驗，可能對於母語並非英語的學生非常不利，因而產生偏差。

其他檢驗偏差的方法[]

除了透過審查內容和進行差異性試題作用分析外，與答題過程有關的偏差證據，還可通過比較不同次群體受測者的回答的內部結構來表現。如果因素分析或向度分析顯現出不同次群體在解題上有不同的內部結構的話，很可能測驗所測量的是不同的構念，或者這些次群體對所測量的維度的變化程度不同。當有證據表明包括人格測驗在內的測驗在測量不同性別、族裔或文化次群體的受測者的不同構念時，確認測驗的內部結構支持由母群體中不同的次群體得出的推論是很重要的。如果測驗的內部結構，會因族裔文化的不同而差異很大時，似乎不宜直接比較這些次群體成員的分數。

偏差還可以由測驗分數和其他變項之間的相關中看出來。這種證據中，我們最熟悉的形式，就是不同的次群體在選拔測驗分數和效標表現分數的線性迴歸方程式上有所不同。這個問題在下一節將會更詳細地討論。不過，基於與其他變項的相關而得到的偏差證據，也可能有多種表現形式。例如，施測同樣的認知能力的兩個測驗之間的關係可能在一個次群體的是一個樣，而在另一個次群體裡卻是另一個樣。這個差別可能說明其中一個或兩個測驗都有偏差存在。再例如，在一群英語能力極其有限的受測者中，若他們的閱讀和數學測驗分數之間的相關係數超過預期值的話，我們就得調查一下，看是否語言能力嚴重影響到部分受測者的數學分數。

平均分數的特性曲線或其他統計分佈的綜合數據資料也可能提供偏差的潛在來源，如果在某個學業測驗裡男生的成績比女生好，同時另一項施測裡女生比男強，那麼兩次測量結果不可能都和同一構念有線性關係。但須注意，如果參加測驗的受測者來自不同的大次群體，如果測驗領域選擇不同，或者所考的構念因不同的動機因素或其他效應而不同時，兩個高信度的測驗，每個都對其本身預計的目的具有效度時，會有這樣的模式。兩者之間不一定具有直接的或間接的聯繫，需要考慮對這種模式做其他的解釋。在有些情形下，由於測驗和表現效標都依賴於同一與構念無關能力，可能會產生測驗和表現效標的關聯。如果某一次群體在這些無關能力上有區別的話，偏差會隨之產生。

挑選和預測上的公平性[]

當測驗用來挑選人員和預測受測者前景時，通常是在各組受測者的測驗分數和準則分數之間的關係中找尋偏差存在與否的證據。在一個公認的廣義定義下，如果連接測驗和判別準則的回歸方程結果對需鑒別的各次群體受測者沒有明顯區別時，偏差便不存在。（有些公式不僅要求回歸斜率和截距相等，還要求估算值的標準誤差也必須相等。）如果測驗和判別準則的關係不一致的話，視受測者所屬的次群體，可能需制定不同決策規則。

如果整合一個所有受測者次群體的預測方程式表明任何一組受測者在準則方面的成績被系統地高估或低估時，當準則成績測量中的偏差又不能解釋時，一個辦法就是為這個次群體重新分別寫一個預測公式。另一個可能性就是替換或附加一個預測指標分數，以便在不降低整體預測準確性的同時減少差別預測。如果使用分別的回歸方程的話，他們用在不同受測者次群體的預測準則的分數分佈的效果需要檢查。注意：在美國，有些情形下對可確認的受測者次群體採用不同的挑選規則在法律上是被禁止的。然而，也有可能在有些情況下法律要求另外考慮挑選人員程序。

從技術層面考慮而期望將公平性和沒有偏差兩者等同的看法，和著重於測驗結果的看法之間常常很緊張。如果給定的分數是對所有次群體受測者做出同樣的預測成績的話，一個為其目的服務的、有效度的測驗可能被認為是公平的。但是它也可能被某些人認為不公平，如果各次群體的測驗平均分數不一樣的話，這是因為一個給定的錄取分數和判別限度在測驗平均分較低的次群體裡常會導致更大比例的錯誤否定的決定。換句話說，低分數的次群體通常會有較大比例的受測者由於其分數偏低而被拒絕，哪怕他們如果被錄取也會有成功表現。這個表面的悖論是因為測驗和預測效標之間因不完全相關而導致的統計上的後果。它不會因為任何其他的測驗特徵而發生，也和受測者次群體的人口統計方面的因素沒有直接關係，純粹是作為偏低分數函數的一個統計現象，和受測者次群體來源無關。例如，當把主要族裔次群體裡高分的一半受測者和低分的一半受測者拿來比較時，這種現象也會產生。一個測驗或另外什麼預測源的公平性應和與之相對的非測驗手段相比較才能看得出來。

因所選擇的預測源而導致的次群體結果差別[]

現實社會裡幾乎所有努力的成功都需要多種能力和技能，而這些能力的互動關係非常複雜。典型的施測計畫通常只能涉及到其中的一部分，有些技能和能力不包括在內，因為挑選過程中的另外一些部分（如完成某門課程或是面試）已經對它們評量過了。

但有些能力或技能也被排除在外，是因為有效度和有信度的測量手段在經濟上，實際操作細節上，或是管理上不能做到。例如，要想在大學期間學習好，除了語言能力和數字方面的推導能力外，還需要毅力、動機、和良好的學習習慣，以及許多其他的因素。即使是每個預測效標對它所服務的目的都是有效度的且合適的，那採用哪些預測變項仍有可能引起公平性的問題。相對於沒有測量到的特質，如果在己測量過的與工作有關的特質方面，各次群體之間的平均數有差異，那麼，公平性在次群體層面和個人層面都會是個問題。

能否達成共識？[]

就整個社會而言，或是在教育測量專業內，對於測驗使用中所有的公平性問題達到共識還很渺茫。如前所言，公平性有不同定義，並非僅僅從技術角度來談這個問題，它在不同的社會狀態和政治狀態下有不同的定義和解釋。從一個觀點來看，在任何情形下有意識地使用一個沒有偏差的測驗是公平的，不管它對哪個次群體或個人有何後果。從另外觀點來看，公平性的要求不僅僅只限於滿足某些技術要求就可以了。需要在此重複強調的是本《標準》將提供更具體的技術指導，但價值體系和公共政策等方面的考慮對負責任地使用測驗也至關重要。

MTT:有關施測與運用公平性的標準