Wikia

WikiTeamWork

教育與心理測驗標準/第三章內容

討論0
844條目存在於本站
測驗的編製與修訂 編輯

測驗的研發是指根據一個具體的計畫來撰寫題目,然後將這些題目排列編輯成一份測驗,再以它為工具,來對個人的知識、技能、能力、興趣、態度或其他心理特質進行測量的過程。它受到測驗的目的和對測驗分數預期性推斷的引導。

測驗編製過程要包括以下幾方面的考慮:內容、形式、將使用的場合、和使用該測驗的可能後果。測驗編製也包括規定施測程序、決定測驗評分方式、以及向受測者和測驗使用者公布分數的條件。

本章內容主要講述以下幾方面:闡述測驗的目的;定義測驗的架構;研發命題的內容細則;研發並評鑑試題、計分程序及評分規程(rubrics);編輯測驗題本;和修訂測驗。

第一節描述測驗編製的過程。始於對測驗目的的闡述,終於測驗的組合。第二節論及測驗編製中需特別考慮的幾個問題,包括描述測驗架構的輪廓和實作評量的研發。最後一節討論測驗的修訂。信度、效度及公平性等問題將融合在測驗編製的各個階段中討論。

一、測驗的編製 編輯

教育和心理測驗的研發過程,通常始於對測驗目的和所要測量的構念或內容領域進行陳述。由於測驗編製過程中必須做好幾個決定,同樣構念或內容領域的測驗可以在好幾個重要方面都不相同。

測驗編製四階段 編輯

我們可以將整個程序,從最初的測驗目的陳述到最終成品,分四個階段來看:

 (l)描述測驗目的及所測量的領域和構念的轄域;
 (2)研發和評鑑測驗的內容細則;
 (3)編擬試題、施測程序和評分方法、預試和試題分析評鑑;
 (4)組合和評鑑正式試卷。

以下是對一個典型的測驗編製過程的描述。不過根據具體情形,人們有充分理由只須遵循某些步驟,而不見得要亦步亦趨。

測驗目的與測驗架構 編輯

第一步是將最初的測驗目的的文字和所要測量的構念或內容領域擴展成一個架構,對測驗的目的和所測量的構念及內容領域的外延作進一步的充實描述。因此,測驗架構必須詳述構念或內容領域的各不同方面(如內容、技能、過程和特徵分析等)例如「八年級數學包括代數嗎?」「口頭能力包括課文理解和詞彙嗎?」「自尊心是否同時指感覺和行為?」對於測驗架構可以從理論上描述,也可以像許多證照測驗和雇用測驗那樣,從內容領域或職位工作分析的角度上來描述。測驗架構會對後面的測驗評鑑起指導作用。在效度一章裡,對於構念或內容領域、測驗架構和測驗目的之間會有更深入的討論。

測驗內容細則 編輯

當測驗內容和測驗分數的意義決定後,下一步就是通過測驗的內容細則來設計測驗。測驗的內容細則像建築藍圖一樣,用以描述測驗題型式、作答方式或答題條件、及評分程序的類型。

測驗的內容細則可闡明在計量心理學(psychometrics)方面所期望的試題的特性,比如,難易度(difficulty)和鑑別度(discrimination),以及所期望的測驗特徵(如,試卷平均難度、試題間的相關係數、和信度)。測驗的內容細則還可包括時間限制、原定受測者群體的特性,和施測的具體步驟和規定。 所有後面的測驗編製活動都是根據測驗的內容細則來執行的。

常模參照或是標準參照 編輯

測驗的內容細則應說明(或起碼暗示)測驗分數主要是常模參照式(norm-referenced)還是準則參照式(criterion-referenced)。 當分數是常模參照式時,相對分數的理解就比較重要。因為個人分數或可分類的次群體的分數會在一個或多個分數分布名次,或與各種參考群體的平均分數做比較。參考群體的劃分可根據年齡、年級、特徵分析類別或職種而定。

當分數是標準參照式時,絕對分數的理解就比較重要。這種分數的意義不依次,而是直接表示受測者在某個事先定義的標準領域裡所達力層次。常常相對理解和絕對理解都會用於某個測驗,但編製者決定哪種方法和該測驗更相關。

題型 編輯

試題性質和答題形式依測驗的目的和已定義的內容定。選擇回答形式(如多項選擇題)適用許多測驗目的。測驗內容細則須指明每道題有幾個選擇。其他的測驗目的可以通過文字題來與達到。

簡答題(shon-answer items)只需要幾個字就可完成。問答題(extended- response items)需受測者書寫一句甚至多段文字才能完成。實作評量(performance assessment)常需在模擬情境或條件下檢測受測者在所測知識和技能方面的實際運用能力。例如,有種實作評量是標準化職位操作選項。一項任務在標準化條件下以標準化形式交給受測者。舉例而言,職位操作選項可能包括實務者對某項設定條件的準確分析判斷和處理建議的能力,管理者對某個組織的目標清楚闡明的能力,或一個學生做科學實証的能力。

題型與評分方式 編輯

所有題型都要說明如何評分。有些施測計畫裡每道選擇題只有一個選擇是正確的。在另一些施測計畫裡,所有選擇可能各占一定分量。簡答題的話,可能一串可接受的替換回答就夠了;而伸展題就需要更詳細的評分規定(有時叫評分規程,scoring rubrics)。評分規程詳細列出評鑑分數的具體準則,但也會因評判要求的程度深淺、分數段的數目多少或其他因素而異。常規做法是測驗編製者為評分人員提供每個分數段的樣例以幫助他們明了分數評分標準。

分析性與整體性評分 編輯

包括實作評量在內的伸展題主要有兩類評分方法:分析性評分(analytic scoring)和整體性評分(holistic scoring)。兩種方法都要求能反映測驗架構的明確評分標準,但區別在於評鑑報告的詳細程度。採用分析性評分時,分數標準的每個重點項目都分別受到獨立評定;除了總分外,每個重點項目也都分別計分。採用整體性評分法時,同樣的(重點項目)分數標準可能也會用到,但最後只給一個總分。 使用時機 由於分析性評分法可提供數個重點項目方面的訊息,它可以評鑑受測者的強、弱項,具有診斷性的價值。與此相對的是,當只需要一個總分數就足以達到目的,或評量的技能太過於複雜或關係緊密時,或者受測者人數太多,而評分人員負擔太大時,整體性評分法可能才是較佳的選擇。不管用哪種方法,設計題目、編寫評分規程、選擇評分方式是一整套的過程。

參與人員 編輯

集體參與測驗編製的方式可以用在試題設計、評分規則上,有時也用於評分過程本身。許多有關人員(如開業者、老師)都可以加入出題、制定評分規程、和評鑑學生表現的行列。

參與者資格 編輯

如果採用集體參與的方式,參與者對所評量的內容領域方面的知識,和他們運用評分規程的能力非常重要。所以他們應該是學科專家、資深老師、或有經驗的評分人員等。

熟悉受測群體 編輯

對那些參與測驗編製和評閱試卷的人來講,熟悉參加測驗的受測群體的特徵也同樣重要。受測群體的相關特徵可能包括:期望受測者具有技能的典型程度範圍、他們對於答題方式的熟悉程度、以及主要使用的語言。

試題審查與預試 編輯

測驗編製者常常建立一個試題數目遠超出測驗內容細則所要求的題庫,使得研發人員有餘地去選擇符合測驗內容細則的一套試題。試題的品質通常要通過試題審查和預試來確定,主要是檢查試題的內容、品質、和文字清晰度,有時候也審查試題在性別和種族文化上的敏感度。通常在命題時會提醒命題者盡量避免可能冒犯或引起某些受測者不快的語言和議題,在審查試題時會邀請不同性別及不同種族文化的人士參加。

預試的目的與方式 編輯

為了了解試題是否合適,常在受測者群體中進行有代表性地抽樣,再對其施行預先的測試。預試有助於確定試題的某些心理計量方面的特性,例如,試題的難易度和鑑別度。許多使用中的測驗計畫(如TOELF,GRE)常把試驗性質的試題在位告知的情況下夾藏在正式測驗中。這些試題的答題結果不會算在受測者的分數內,但受測者的反應卻給測驗編製者提供了非常有用的數據資料。

編組題本 編輯

測驗編製的下一步是將試題編組成一個測驗,或是為適性測驗(adaptive test)確認一個題庫。測驗編製者要負責使選來用於測驗的試題都符合測驗細則的要求。根據測驗目的需要,選擇試題所需考慮的方面有,試題內容質量和範圍、試題和內容領域的比重以及所選試題對指定的受測群體是否合適。測驗編製者常明確規定在一個測驗裡試題的心理計量方面的係數分布。例如,在試題難度係數的分布上篩選性測驗的分布就不同於一般性學力測驗的分布。

當試題的計量心理方面的係數用試題反應理論(IRT)估算時,對數學模型是否和實際數據資料相吻合也須進行評鑑。這方面的評鑑是看試題反應理論的假設條件是否得到滿足來完成,如單向度性(unidimensionality)、局部獨立性(local independence)、測驗速度(speed tests)和相等斜率參數(即試題特徵曲線的斜率)等。

分數解釋方式與心理計量特徵的要求 編輯

測驗編製者還有責任確保評分方法與測驗目的一致,並幫助作有意義的分數理解或解釋。預期性分數解釋的性質決定測驗編製程序中試題的心理計量特徵的重要性。

相對解釋 編輯

例如,試題的難度、鑑別度以及試題間的相關係數,這些在分數被作為相對解釋時就特別重要。這時我們希望整個構念分數軸上各個分數點的鑑別度係數都很高。但需注意的是,在盡量提高這些係數時不能偏離測驗內容細則要求。

絕對解釋 編輯

但在對分數作絕對解釋時,標準又不一樣了。這時,有關內容領域的代表性就很重要,哪怕許多試題在一個相對的受測者群體中並非很難或鑑別度很低。不過這些比較容易或鑑別度不高的試題的質量仍需保証。如果在標準參照式測驗的分數解釋裡需要設立切截分數時,切截分數周邊區域的試題的鑑別度係數會提供關鍵數據資料。

基於測驗編製過程中的這些不同因素,設計用來作某種解釋的測驗用在另一場合時就不那麼有效。但根據測驗設計和輔助証據,常模參照式測驗的分數也能做出合理的標準參照式測驗性質的分數解釋,反之亦然。

檢查試題偏差 編輯

測驗編製者常用差異性試題作用(DIF)來檢測題庫裡試題或測驗本身的品質。當能力基本相等的受測者,因他們所屬的群體特徵而對同一試題做出不同的回答時,就是產生了差異性試題作用

目的編輯

從理論上來講,這種檢查的最終目標是確認試題內容、試題形式、或評分標準的與構念無關的因素。這些因素可能會不同程度地影響一個或多個受測者群體的分數。

處理編輯

一旦差異性試題作用被查出來,測驗編製者便會追查造成這種現象的可能原因。如果的確是與構念無關的因素的話,他們將更換或修訂那些引起不同群體分數差異的試題,但是這並沒有解決造成群體性的差異性試題作用的真正原因。

更換題目的原則編輯

差異性試題作用係數顯著的試題和差異性試題作用係數不顯著的試題,可能在對所施測的內容要素上具有同樣效用。當差異性試題作用係數顯著時,測驗編製者必須採取措施,使得更換或修改後的試題仍然符合測驗內容細則的要求。

多複本測驗與電腦適性化測驗 編輯

當一個測驗有多種試卷時,每種試卷都受到測驗內容細則的約束。還有,在為一個電腦化適應測驗建立題庫時,測驗內容細則對題庫本身和為每個受測者準備的單獨試題組都有效用。類似針對受測者能力的估計以輸出試題這樣的特性,給電腦化適應測驗設計又增加了額外的限制。

一般而言,電腦化適應測驗需要大量試題以保証每套調整過的試題仍能達到測驗內容細則的要求。其二,這類測驗多半是在較大的評量體系中研發而成。例如,多套試題可以用於不同的受測群體或不同的測驗日期(如紙筆版的TOELF)。其三,在準備一種測驗的濃縮版時,完整版的測驗內容細則仍然有效。完整版和濃縮版在測驗內容細則和計量心理特性方面的差異會影響濃縮版分數的解釋。測驗編製的基本原理和方法在以上任何情況下都適用。

三、測驗編製中應特別注意的事項 編輯

這部分主要針對上面所講部分作進一步闡述。首先是在描述測驗架構方面的注意事項,接下來是在製作實作評量(performance assessment)和學習歷程檔案(portfolio)方面的注意事項。

1.描述測驗架構 編輯

本章背景介紹部分勾勒出研發測驗常需做的事情,但這些活動並非總是按部就班地進行。

編製過程中測驗架構的變動 編輯

在構念或內容領域的概念形成和研發評量該構念的測驗之間常常會有微妙的相互作用發生。測驗架構將這個構念或內容領域如何體現在測驗中具體描述出來。用於出題、制定評分規程和檢查試題特性的步驟常有助於闡明架構的內容。在測驗編製前設定的架構範圍根據施測的具體應用狀況而定。在許多實際應用中,定義清晰的架構和詳盡的測驗內容細則給出題及評分規程和步驟提供了具體的指導計畫。

以外在效標選題 編輯

在心理測量的某些領域,測驗的研發可能不是完全依賴事先設定的架構而可能更多地是依賴於根據實証數據資料而形成的架構定義。在這種情形下,試題的選擇主要是根據試題與外部效標(external criterion)之間的實証關係、試題互相之間的關係,或試題對不同次群體受測者能力的鑑別度的關係。例如,研發一種選拔銷售人員的測驗可能會看試題分數和目前在崗銷售人員的營業額之間的相關係數。再如,一個衡量顧客滿意程度的施測可從題庫中選擇一組與顧客忠誠度相關係數最高的題目。同樣,幫助確認不同心理模式的調查可以用不同診斷結果的病人次群體來完成。

當測驗編製是通過以數據資料為基礎的方法進行時,部分試題很有可能因機率而被選上。因此人們常做交互驗證(cross-validation)研究,讓兩個可以比較的受測群體各做一遍測驗題目,以檢查試題是否因隨機性而被選入。

許多測驗實務中,測驗的架構起初都有詳細闡明,然後這些內容細則被用來指導出題和評分的程序。試題之間的實証關係會為試題的留用、修改或擯棄提供數據資料。根據這個過程研發的測驗,其分數的解釋對測驗所測量構念各方面既有理論上或邏輯上的根據,又有實証數據資料為基礎。

實作評量 編輯

實作評量和其他形式的評量有一點不同在於它對受測者在答題方式的要求上。實作評量要求受測者實際做出一個行為,如,演奏一段音樂、用化學溶劑清洗汽車發動機裡的沉積物,或者做一個成品出來,如,寫一篇文章、話一章水彩畫等。

接近真實性程度 編輯

實作評量通常要求受測者在與真實狀況極為接近的情境中,表現他們的能力或技能。

例如,評量一個正在實習的心理系學生時,可能要求他去訪談一個病人、為病人選擇合適的測驗、施測後做出診斷,並製定治療計劃。

實物成果或行為歷程取向 編輯

實作評量在性質上包涵很廣,它可以是成果取向的,也可以是行為歷程取向的。有些工作任務不容易觀察其行為歷程或是行為歷程沒有明顯差異,但是作品卻有很大的差異,例如,寫作或美術作品。有些工作不會產生具體作品,只能觀察比較其行為歷程,例如,舞蹈,溜冰,體操 或演講。

取樣與概化問題 編輯

由於實作評量需要的時間較長,器材較多,所以多半只由少數個練習組成,因此,能否用這些結果概化到更大的內容範圍是個重要的問題。

利用測驗內容細則可以使得工作任務的研發能體現所評量的關鍵要素,並更全面地覆蓋評量內容。

效度證據 編輯

還有邏輯証據和實証資料對於記載實作測驗(作業及評分標準)反映內容範疇定義的過程和技能的程度是非常重要。當作業是設計用來檢測複雜的認知程序時,對練習的邏輯分析和對受測者分數的邏輯分析和實証資料分析都能提供必要的效度証據。

3.學習歷程檔案 編輯

學習歷程檔案是一種獨特的實作評量方法。學習歷程檔案主要是將隨時間增加而系統收集在教育方面的成果或其他分數歸納成檔。就像其他評量方法一樣,學習歷程檔案的設計也是依其目的而定。典型的目的如對工作或教學分數方面進步的評判,對招聘、晉升或畢業的評鑑等。一個設計嚴密的學習歷程檔案會注明可放入檔案的各種計畫的性質。

包含內容 編輯

學習歷程檔案的條目可包括有代表性的成品、受測者的最佳工作表現或表示進步的材料。例如,在某個有晉升機會的工作環境裡,主管部門會知會員工把他們做得最漂亮的工作放在檔案內。如果目的是判斷一個學生在學業上的進步時,學校可能會叫學生就某些方面的能力和技能提供進步的証據。也可能叫學生對所選証據提出理由。還有些方法可能包括使用錄像帶、展覽品、實物說明和模擬制品等等。

誰來挑選 編輯

在工作環境裡,員工可能會參與為晉升或表現他們競爭能力的條目挑選中去。同樣,在教育環境中,學生也會參加評選自己的工作或作品的過程。學習歷程檔案的內容細則需注明誰將負責挑選檔案的內容。例如,內容細則可指明是測驗主持人、受測者或雙方共同挑選放進學習歷程檔案的條目。各方的具體職責也都在內容細則裡詳細寫明。

可比較性 編輯

規定的內容越標準化,施行管理的措施越正規化,越容易建立學習歷程檔案分數的可比較性。不論用什麼方法,所有的實作評量和其他類型的測驗一樣都要按照同樣的技術品質標準來評鑑。

四、測驗的修訂 編輯

測驗本身以及它的輔助文件(如測驗手冊、技術報告、測驗使用指南等),每隔一段時間就需要重新審閱,看是否需要作任何的修訂。

修訂的時機 編輯

當新的研究資料、測驗內容領域的顯著改變,測驗用途或分數解釋的新條件能增進分數理解的效度,或能表明現有測驗已不適合行使它原先設計的功能時,修改或補充就變得很有必要。舉例來說,如果測驗內容或施測使用的語言已經過時,進而影響測驗分數解釋的效度的話,測驗就需要修訂。此外,修訂測驗內容也可保証測驗的機密性。

常模的修訂 編輯

要注意的是,過時的常模也像過時的測驗一樣需要修訂,例如,當一個學力測驗的常模,其群體分數上下波動一段時間後,或受測者群體發生了明顯變化時,常模就需要更新;但是,測驗內容本身可能還是一如當初編製時繼續有效。

Wikia里...

隨機wiki