MTT:第六章

教材目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

題庫目錄---第 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 章

施測、評分和分數報告

談到測驗分數的有用性和可解釋性，其先決條件是，測驗是按照測驗編製者的指示進行施測和評分的。當給受測者的指示、施測條件和評分步驟都遵循同樣詳細的程序時，那麼這個測驗才可被稱為是標準化測驗；否則，分數解釋的準確性和可比較性就會大打折扣。

標準化測驗程序[]

對於設計用來評量受測者的知識技能或能力的測驗而言，標準化有助於確保所有的受測者是在相同的條件下表現他們的能力。而加強試卷的保密性也有助於確保沒有人能比其他的受測者擁有不公平的優勢。

例外程序的產生[]

但偶爾也有如下情形發生，使得標準化程序因有關方面的建議或法律規定而稍作修改。不同背景、年齡或對施測過程熟悉程序不同的受測者可能需要用非標準的施測措施或對測驗過程作更透徹的介紹，以使所有的受測者對要做的事情都有同樣的了解。

對於殘障與非母語受測者的例外處理[]

標準化的測驗指導語或標準化的作答方式，對於諸如有殘障的受測者或對測驗所用語言水平有限的受測者可能不合適，因此可能需要提供相對應的調整措施（accommodation）（見第九章和第十章）。大型標準化測驗計畫通常在出現需要考慮並允許調整措施的情形時，都會有具體的規定及安排。但有些測驗使用單位覺得允許使用無法律規定的調整措施會招致對受測者不公平對待或歧視的指控。

雖然制定調整措施的初衷是要維持分數的可比較性，但調整後的可比較的程度可能無法事先知道，因此分數的可比較性可能會因此大打折扣，從而測驗也就不是對所有受測者施測相同的構念了。

評量與標準化測驗之差異[]

測驗與評量在標準化程度上不同。在許多情形下，不同的受測者用的是不同的試卷，但相等的試卷己表明能得出可互比的分數。有些評量允許受測者選擇測驗計畫或選擇願意被評價的哪幾項工作。通過具體規定選擇的條件或評價成品的準則可將標準化維持在一定的程度上。當某個評量計畫允許集體作業時，要規定合作的尺度。

有些評量計畫裡施測人員得修改測驗指示以幫助確保所有的受測者明了他們要做的事情。所有這些都是為了達到一個目的：對每個受測者提供準確且可互比的測量，同時避免對任何人造成不公平的優勢。標準化的程度受測驗的目標以及所預定的用途而左右。

測驗指導語[]

針對受測者的標準化的測驗指導語可幫助他們了解參加測驗的機制。指導語中通常告訴受測者如何回答題目；如果他們對試題或是要做的任務不懂時，他們可得到哪些幫助；如何改正答案；以及有關時間上的限制。有時對漏答的試題有一般性的忠告。

許多測驗（包括電腦操作的測驗）要求有特別的設備或作答方式。這時候指導語中常常會有練習題，以幫助受測者了解該如何操作設備或作答。標準化的原則包括向受測者介紹他們可能不熟悉的材料。有時候考場可能會提供一些設備，譬如工廠的工具或運動場的平衡木等，這時受測者應當有機會熟悉這些設備，除非使用設備本身就是測驗的目的。

電腦化測驗的測驗指導[]

有時測驗是通過電腦來進行，答題通過電腦的鍵盤、滑鼠或類似的儀器完成。儘管大多數人對電腦己習慣了，但還是有人不太習慣，需要作些簡短的解釋和練習。即使那些己習慣使用電腦的受測者也需要了解一些具體的操作細節。考場環境的管理方面也有一些特別注意事項，比如照明設備的安排不能讓光源直接照射到屏幕上，以避免影響其顯示內容的可讀性。當受測者分別開始測驗時，相鄰的受測者在開始和完成的時間上都不同，這時保持考場安靜也是一項挑戰。主持電腦測驗的監考人員需要接受對於所使用的電腦在軟硬體方面的訓練，以便能處理人機溝通時所出現的各種問題。

標準化評分程序[]

標準化評分程序有助於保証評分和分數報告的準確性，這在所有測驗形式裡都至關重要。以機器閱卷時，機器的準確度（包括讀卡敏感度及演算法在內）非常重要。如果是人工閱卷，便需要對評卷人員進行細緻且全面的培訓。對閱卷結果有規律的抽查，也可幫助確保每個測驗計畫都是按照同樣的標準化準則評分，而且這些準則也不會隨著評卷入員的工作進程而改變。

測驗結果的解釋[]

如果沒有其他的資料（如常模或標準、測量誤差的表示方法、測驗內容的描述等），測驗分數本身不能被解釋，就像華氏50度在元月份對明尼蘇達州來講很暖和，而對佛羅裡達州來講很涼一樣，一項測驗的50分沒有上下文就毫無意義。對不是技術專家的人報告測驗分數時，應向收到報告的人提供通俗易懂的解釋材料。測驗使用者常向受測者提供測驗結果的論釋，指出結果的局限性，以及任何報告的分數和其他資料之間的關係。有些測驗分數不是為報告給受測者而設計的，所報告的只是比較寬泛的測驗分數解釋，或是如及格不及格之類的二分法。

電腦解釋測驗結果[]

有時測驗結果的解釋是由電腦系統完成，這種解釋通常是建立在綜合實証數據資料和專家判斷以及使用經驗的基礎上的。在專業實務上，有些個別測驗可用電腦列印出分數的解釋，再經由一位專業人員來傳達，有時針對特殊情況再作一些調整。這種測驗解釋方式需要進行效度論証，因為它能否與非演算法途徑所做的解釋保持一致，才是人們所擔心的。

均衡矩陣抽樣下的個人分數[]

有些大型評量的重要目標並非是以受測者本人為單位，而是如學區或工廠這樣更大的單位。通常的做法是，遵循一個設計周密的均衡矩陣抽樣（balanced matrix sampling）計劃，給不同的受測者考不同的題目，以拓寬在一個合理的時間內所能收集到的訊息量。當對許多受測者回答不同的樣本題的結果進行綜合時，這個結果需要賦於意義。這種評量（指均衡矩陣抽樣設計）無法給受測者提供哪怕有最低效度和信度的分數，因為受測者只是參加了一個不完整的測驗。

有關舉行測驗和評分的其他問題，在第三章測驗編製和修訂裡有深入的討論。

有關施測、評分和分數報告的標準