MTT:第四章

教材目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

題庫目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

量尺、常模和分數的可比較性

量尺[]

典型的計分方法是以試題的各個回答為依據，通常是用1和0表示對/錯或同意/不同意的回答，但有時候也用數字來表示，使得評分更為精細。然後常常是用加法將所有試題的分數總加起來，有時也用更詳細的步驟來計算原始分數（raw score）。

原始分數的高低在一定程度上取決於測驗題數、時間限制的設定、試題難度、施測環境等測驗特性。在缺乏進一步資料的情形下，很難對原始分數進行解釋。如果將原始分數轉換成完全另一套數值，即衍生分數（derived score）或量尺分數（scale score）時，解釋和統計分析都可做到。用來報告大學入學測驗分數的不同量尺、常用作報告智能量表或職業興趣及人格測驗的標準分數，以及小學裡標準化學業測驗報告中的年級當量（grade equivalence）分數，都是量尺分數的例子。量尺（scale）是設計用來幫助解釋分數的，因此測驗分數通常是以量尺分數來報告。

分數量尺的產生過程被稱之為測驗的「量尺化」（scaling）。量尺分數可通過指明一個分數怎樣和其他受測者的分數相比，來增進其解釋，還可通過加強同一測驗的不同試卷或其他方法所獲取的分數的可比較性，來增加解釋。

標準或切截分數[]

另一種幫助解釋分數的方法是建立「標準」（standard）或「切截分數」（cut score）並用此區分不同的分數級段。有時用一個單一的切截分數就可劃分及格和不及格的界線，有時則需用一連串的切截分數來界定對於學科內容的不同熟練程度；切截分數用原始分數或量尺分數來設定皆可。量尺分數和切截分數對於使用和解釋測驗分數都很重要。因此，它們的可辯護性（defensibility）在進行測驗效度驗證時，是一重要考慮因素。假若將由一連串的切截分數劃定的一系列分數級段，重新以數字標示的話（如0，1，2，3等），一個量尺分數便隨之形成了。

除了在孤立狀態下幫助解釋一個測驗的單獨試卷（single test form）外，人們也常建立量尺分數以增進同一測驗的不同試卷、不同施測條件，甚至是測量不同構念的測驗（同一套測驗內相關的單元）之間分數的可比較性。由測驗替換試卷得出的分數經過等化制值後，用量尺分數單位比用原始分數單位容易解釋多了。量尺化可將學業測驗裡不同程度的分數排列在一個連續的量尺線上，以協助做出有關受測者進步或發育方面的推斷。量尺化還可以加強不同領域的測驗所得分數的可比較性，就像性向、興趣或學業測驗組合(battery)裡各分測驗那樣。

常模參照式分數和標準參照式分數的解釋[]

常模參照式解釋[]

受測者單獨的原始分數或量尺分數，常用來和一個或數個受測者次群體的分數分布作比較，以便對某個受測者分數作有意義的推斷。在這種比較上對受測者分數的解釋稱作常模參照式解釋（norm-referenced interpretation）。例如，百分比等級常模（percentile rank norm）標明某個個人（或群體）在一個指定的個人（或群體）裡所處的位置。這種群體比較的例子可以是上一學年的最後兩個月裡剛考完試的美國四年級學生。百分比等級分數、平均分數或參照組的其他統計數值稱為常模（norm）。通過表現一個給定學生的分數相對其他學生分數如何，常模起到將學生分類或描述學生的功能。

標準參照式解釋[]

其他測驗分數的解釋在受測者之間沒有直接比較。這些解釋的表現方法不同，其中多數集合起來稱之為標準參照式解釋（criterion-referenced interpretation），協助這類解釋的衍生分數可表示在某個大的內容領域的試題裡可能答對的題目的比例，或者是一個受測者正確回答某類試題的機率。還有些標準參照式的解釋可能表示心理病理學方面內容出現在試題中的可能性。另外還有一些標準參照式解釋表示一個受測者掌握所考知識或技能的機率，或是在另外不同情形下能成功做好工作的機率。這類機率可以用一個期望表（expectancy table）總結出來。輔佐這類標準參照式分數解釋的量尺分數常建立在測驗分數和其他變量之間的關係的基礎上。

兩種解釋方式的混用[]

有些量尺分數的產生主要是用來幫助解釋常模參照式測驗分數，其他的量尺分數則用於解釋標準參照式測驗分數。但實際上區別並非總是那麼涇渭分明。同一測驗分數可以同時產生標準參照式和常模參照式的量尺。進一步而言，一個常模參照式分數量尺可能最初是用來表明例如相對某個特指群體的分數，但到後來也被逐漸用來輔助標準參照式的解釋。隨著研究的深入和經驗的增加，人們對不同的量尺分數級別所包含的能力也有進一步的理解，這時上述情形就會發生。

反過來講，一個教育評量的結果可能以幾個按順序排成的熟練程度量尺進行分數報告。熟練程度通過描述學生在各個程度時應能操作或運用的技能來定義，這就是標準參照式量尺。但是，一旦各個程度的分數分布報告後（如一個州全體八年級的某項測驗），單獨的受測者分數同樣也會傳達他們在參加測驗的群體裡的相對位置。

根據切截分數可作的解釋可以是常模參照式的，也可以是標準參照式的。如果在相連的每個分數域後面都附有一段對該分數域的定性描述的話，其解釋就是標準參照式的。例如，有些評量計畫的評分標準描述通過總結受測者的數項能力來增強對分數的解釋，而這些能力又必須由（受測者）表現出來才能賦予某一給定分數以實際意義。在另一些情形下，標準參照式分數的解釋可能根據實証資料得出的測驗分數和其他變量的關係而定。但當測驗是用來選拔人員時，假使選擇受測者的用途，沒有另外信度和效度數據資料支持的話，比較合適的做法是將受測者按照他們的分數高低進行排列，然後按事先預定的錄取百分比或人數，設立一個切截分數，再從切截分數的一邊來挑選受測者。在這種情形下，切截分數的解釋其實是常模參照式的，「拒絕」或「失敗」相對於「接受」和「通過」，完全是根據一個受測者相對於其他受測者的地位。

根據切截分數分數所作的標準參照式解釋有時會招致批評，認為剛好在切截分數以上和以下的受測者之間，簡直找不出有什麼差別。例如，一種神經心理測驗可能有助於診斷某種缺陷或殘障，但殘障的顯現機率很可能成為測驗分數的函數，隨著分數的增加而增加。但不管怎樣，在制定根據測驗分數決定受測者能力方面的規定時，切截分數有其功能；同時也得承認，處於切截分數附近的受測者，其被錯誤分類的機率會比較大。

常模[]

常模參照式的解釋[]

常模參照式解釋的效度，在一定程度上依賴於測驗分數和與之比較的參照群體的合適性。例如，基於住院病人的資料所建立的常模，很可能不適合用來解釋門診病人的分數。因此，仔細定義和清楚描述參照群體是非常重要的。這類解釋的效度也依賴於常模總結參照群體的分數表現的準確性。參照群體可能小到幾乎全體成員都能參加測驗（如：在同樣場合下某個特定學區裡某個特定年級裡的所有學生），然而我們常常只是對某個群體裡抽取的樣本進行測驗。

良好常模的要件[]

那麼，常模應建立在技術上完善的、有代表性的、科學的並足夠大的樣本的基礎上，這點非常重要。譬如，幾所地方醫院的病人不可能代表全美國的所有病人。還有，建立在某個樣本上的常模，也可能隨著時間的流逝而失去其合適性。因此，已經用了好多年的測驗，需要定期審查，以確定其常模是否仍可以繼續使用。對於常模參照式測驗來說，可能有需要重新建立常模，以保持其分數解釋的效度。

常模的種類與選用[]

一個以上的參照群體對同一個測驗也許合適。例如，一個學力測驗分數可以參照以下任何一個常模做解釋：根據某個特定的學區的樣本所建立的常模，某個州或社區的常模，或全國性的常模。對於其他測驗而言，常模可能是建立在某種職業的分類或教育程度的分類基礎上。對正好在某一特定期間內參加測驗的全體受測者的描述性統計數據資料（有時被稱為使用者常模）（user norm）或是計畫常模（program norm）可能對有些目的有用（如描述歷年來分數的趨勢）。但要做這樣的推論，必須要有充分的理由認定使用該受測者群體是一個合理的基線。一旦有恰當的理論根據使用這一受測者群體作基線時，描述性統計數值須清楚說明作為一個持續運作計畫的一部分，這組數值是建立在按慣例考查的受測者樣本上的。分數的可比較性和分數算值。

可比較性和等化[]

許多測驗的使用涉及到同一種測驗的不同版本，儘管受測者分數不是來自於同一套試題，但它們的分數卻是可以互相交換使用的。例如，在有些施測計畫裡受測者可選擇參加測驗的日期。如果同一試卷重複使用的話，它的保密性就會有問題。還有些測驗是用同一測驗對同一受測者進行重複測量，這樣做也許是為了測量心理失調的變化程度、態度的變化或是教育方面的變化。在這些情形下，重複使用同一套試題可能會導致測量誤差互相關聯，且所測變化的估算值也可能偏頗。當一種測驗就明顯同樣的內容和統計方面的具體要求而制訂不同的試卷，並在相同條件下舉行時，它們常被稱之為替換試卷（alternative forms），或平行試卷(parallel forms)，或等同試卷（equivalent forms）。將這種替換試卷的分數放在一個共同的量尺軸上的過程就叫作分數等化（equating）。分數等化就相當於矯正不同的分數之間差距，這樣所有的分數對任何一個給定的測驗對象都具有同等分量。測驗分數的等化過程比較複雜。它涉及到要對替換試卷在難度和統計特性方面的細微差異，作小幅的統計調整。

等化的限制[]

從理論上來說，為受測者群體所設計的測驗裡，分數等化應對任何一組受測者提供準確的分數轉換。進一步而言，同一分數轉換應該適合於測驗分數的任何解釋或任何用途。但是對於測量不同構念的測驗，對於在難度、信度、時間限制、施測條件有實質性不同的測驗，或為不同的測驗內容細則而設計的測驗，則不可能建立具有以上理想特性的分數轉換。

適性測驗[]

另外還有一種評量方法，它根據用不同方法對不同試題的回答提出可交換使用的分數，但這種評量方法不稱作分數等化，而是適性測驗。我們早就知道太容易或太難的試題都說明不了多少受測者的能力。於是有些測驗就採取從己有的試題中只選擇適合每個受測者能力範圍內的試題的措施，以避免受測者產生疲倦、挫敗感，並減少施測時間。一個適性測驗包括一個題庫、針對個別受測者的選題規則，以及將不同受測者的分數放到一個共同的量尺上的程序。試題的連續挑選在部分上依賴於受測者對於上一試題的回答。題庫和選題規則的設計，使得每個受測者能得到對本人來說，難度相當且又在內容上具有代表性的一套試題。選題規則通常應保証在施測完結前對受測者能力的測量己達到可接受的精確度。這類經過剪裁的測驗曾經只局限於幾種針對單獨受測者測驗的心理測驗上。隨著題目反應理論(IRT)和電腦技術的進步，適性測驗技術日趨成熟。在有些適性測驗裡，極少有兩個受測者回答同一套試題的情形。還有，參加同一測驗的兩名受測者，可能會遇到兩套難度截然不同的試題。然而，當某些統計數值和測驗內容達到標準條件後，由適性測驗所產生的分數和等化後的替換試卷的分數是具有同樣功能。

通過量尺化以達到分數的可比較性[]

「分數等化」這個技術名詞原來只是指為同一測驗的替換試卷作衍生分數的轉換。但它常常也被用來比較在理論上不能等化的測驗分數。例如，如果我們可以將一個袖珍版的測驗（其信度因此較差）的分數先轉換成完全版測驗的分數，然後再作解釋的話，將是很理想的。就評鑒一個受測者的進步而言，我們也希望能建立在學生發育或教育層次方面跨度較大的量尺。測驗的修訂也會導致連接新版試卷和舊版試卷的需要。國際間的比較研究或有聽力障礙的學生可能需要不同語言版本的試卷。還有一些情形，測量不同構念的兩種測驗（如比較一種智能和一種行為）之間需建立某種聯繫，或是連接數個測驗內容的學力測量值等。這類測驗的分數有時可經調整放在一起按順序列表，以幫助使用者從一個測驗分數估算另一個測驗分數。

使得這種比較成為可能的分數轉換常用以下名詞描述，如鏈接（linkage）、校準（calibration）、協調（concordance）、推測（projection）、緩和（moderation）或定錨（anchoring）。這些鬆散的鏈接可能在技術上沒有問題，也可能使對某個目的或某組受測者的分數比較完全達到所期望的目標，但我們不能假設這類鏈接會總是這樣穩定或對不同的受測者群體仍能保持不變，更不能保証由幾種不同測驗所得到的分數具有相等的準確度。因此，這種分數的連接用於原始動機以外的目的時，或是用於原始受測者群體以外的受測者群體時，可能需要進一步的研究。譬如，對一群使用母語的受測者來說分數轉換是準確的，但對使用非母語的受測者而言，上面的分數轉換可能就會出現系統性的高估或低估。

切截分數[]

在某些測驗的編製和使用中，一個關鍵步驟就是劃定一到數個切截分數，將分數的分布歸類。這種分類可能只是用於描述統計方面或用於區別受測者，將其分配至他們應隸屬的不同計畫中去，或是根據他們的分類狀況做出相應推測。雇主可劃定一個切截分數，過濾有希望成為雇員的人或提拔下屬；學校可根據切截分數在現有的教學計劃中確定對某個學生最有效的計劃；在批準一項專業執照時，州政府可能會訂定一個執照測驗的最低切截分數。

這些例子在某些方面有重要區別，但都涉及在分數的基礎上描述受測者的類別。這樣的切截分數體現了測驗的使用或解釋的規則，因此在有些情形下測驗分數解釋的效度會以切截分數為轉移。沒有哪一種單獨的方法能夠為所有測驗的一切用途決定切截分數，也沒有哪一套單獨的程序能建立其辯護性，這些例子只是作為說明罷了。

第一個例子非常直截了當，即某個雇主可以聘用那些甄聘測驗分數高於一定程度的人。假設這個甄聘測驗對它所考察的目的是有效的，那麼隨著分數的增加（至少在切截分數附近的區域）平均工作表現也會穩步地（儘管是緩慢地）上升。在這種情形下，特定的切截分數值可能大部分要看需招聘或提拔的人數。緊鄰切截分數上下的分數實在沒有明顯區別，運用分數也沒有任何標準參照式解釋的意思。這種確立切截分數的方法可能是出於法律方面的要求。如果對一個或數個員工次群體或可能成為雇員的群體造成不成比例的效果時，需提出信度和效度證據，以支持按名次選擇的方法或沒有其他更好的替代方法的做法。

在第二個例子裡，一個學區可能圍繞三類需要不同的學生來設計寫作課程。對寫作能力較差的學生，可能採取小班教學，並且計劃花相當多的時間作個別輔導，使孩子們的作文能以他們自己的經歷為基礎來寫。對於己有一定寫作能力的學生，教學重點可放在寫作過程裡各個階段的系統性探討上。對寫作能力較強的學生，教學重點可能就會放在如何掌握具體的寫作體裁或是正規寫作的文章結構上。在一個合理實施的計劃裡，如果學生被誤分在某個寫作能力等級的話，他們應能很容易地轉換到適合他們的等級類別裡，或是隨著自己的能力提升而進入高班。理想做法是，描述各個寫作能力類別的切截分數是建立在實際數據資料研究的基礎上的，表明學生按這種方法分班確實比其他方法更能從中受益。典型情形是在這些分數區域之間總能找到一種教學方法優於另一種教學方法；同時還有一個中間地帶，其間用任何方法都差不多，切截分數就可能設在這個中間地帶中。

最後一個例子是專業執照測驗。這裡的切截分數代表一個含有訊息量的判斷，那就是低於切截分數的受測者對於所施測的知識和技能可能在實際運用中犯錯誤。在測驗中犯的小錯誤可能導致拒絕授予申請者在該專業領域開業的權利。

當然，沒有一個測驗是十全十美的。不管切截分數如何確定，有些不夠資格的受測者可能會通過切截分數，而有些夠資格的受測者反而沒有。這種「錯誤肯定」（false positive）和「錯誤否定」（false negative）的相對機率根據所選切截分數而不同。我們應衡量一個不具備開業能力的人拿到執照後對社會可能造成的危害的機率（即錯誤肯定）和不發給一個實際合格的申請人執照（即錯誤否定），即剝奪其開業權利的相對機率。雖然可以在測驗的使用和解釋階段把切截分數的因素考慮進去以達到最小的誤差率，但改變切截分數以降低任何一個誤差機率都會增加另一個誤差機率。此種情形下，哪怕實際數據資料和統計模式在傳遞訊息的過程中極具價值，但決定切截分數卻不僅僅只是技術問題了。切截分數具體地呈現出價值判斷在技術上及實証數據資料上的考慮。

當標準設立過程有重要後果，特別是涉及大量受測者時，負責決定切截分數的人不僅，要將全過程清楚記錄備案，並且力求該過程能經得起質疑。要注意的是參與決策的仲裁人員在知道他們所要做的事情。這樣一個過程應使合格的仲裁人員能運用他們的知識和技能進行有意義的和相關的判斷，以準確反映出他們的理解和意圖。仲裁人員的數量要足夠多，以保証重複該過程時其結果的變動在合理範圍內。

MTT:有關量尺，常模及分數可比較性的標準