Fandom

WikiTeamWork

MTT:第八章

870個維基
頁面
增加新頁面
討論0 分享

測驗應用之領域:心理衡鑑與教育評量

心理測驗與心理衡鑑編輯

本章所闡述的問題對於使用心理測驗為客戶服務的專業人員來講至關重要。這些問題主要包括:測驗的選擇與施測、測驗的解釋、心理測驗中使用的其他輔助訊息、測驗的類型和測驗的目的等等。本章所討論的主要心理測驗類型有:認知和神經心理測驗;適應性、社交和問題行為(problem behavior)測驗;家庭成員關係和配偶關係測驗;人格測驗;職業取向測驗等。另外,本章還對心理測驗的四種一般用途進行了綜述,這些用途是:診斷;處遇措施規劃和結果評鑒;法律和政府決策;個人覺察、成長和行動(personal awareness growth and action)等。

就業測驗裡也會用到心理測驗。本章提供的有關標準可以用於對受測者進行深度評量的就業測驗(如:對一個高級行政職位的申請人進行評量等),而針對具體工作性質測量受測者應具備的素質而設計的就業測驗環境,將在第十四章的有關標準中予以討論。

對於所有使用心理測驗的專業人員來說,關於受測者的文化背景和身體條件方面的知識非常重要,因為它們會直接影響以下因素:(1)受測者的發育狀況;(2)獲取和傳遞訊息的方法;(3)干預措施的計劃與實施等。因此,建議讀者在閱讀本章以前首先閱讀第七、第八、第九和第十章的有關內容。這幾章分別討論了測驗的公平性和偏差、受測者的權利與義務、不同語言背景的受測者及殘障人測驗等問題。

測驗使用者可以在對受測者進行心理衡鑑的較大架構內,提供一種收集與受測者有關訊息的方法。通常,心理衡鑑的過程是一個在心理測驗方面訓練有素、經驗豐富的專業人員與客戶之間相互作用的過程。客戶可能包括病人、心理諮商求診者、家長、雇員、雇主、律師、學生以及其他的測驗參加者或心理報告中測驗結果的使用者。

心理衡鑑中測驗和調查表的結果,可以幫助專業人員更全面地了解受測者,並對其做出更全面和更準確的假設、推測和各種相關決策。心理衡鑑是對受測者在一個特定的時段內心理行為的具體表現情況,或者為了預測受測者未來的心理行為表現而進行的綜合評量過程。評量可以包括施測、評分以及解釋分數等步驟。所有這些活動都是結合受測者的個人歷史情況進行的。由於測驗分數的解釋經常還要結合受測者其他方面的訊息進行,因此,心理衡鑑過程往往還要包括與受測者面談,觀察受測者的行為,查閱受測者的教育、心理和其他相關記錄等工作,並且要將這些材料與第三方提供的有關受測者的資料進行整合。心理衡鑑的任務包括一系列錯綜複雜的專業活動。即收集、評鑒、整合和報告與受測者行為表現各方面相關的重要訊息等。

如果使用恰當的話,對測驗和量表結果的解釋可以成為干預過程中頗有價值的組成部分,還可以為客戶和其他解釋測驗的使用者提供有用的訊息。比如:量表和測驗結果可以用來對個人心理行為進行評量;為受測者的診斷分類;診斷受測者的神經心理障礙;對受測者的認知水平、人格特徵、職業興趣和價值觀進行評量,以確定受測者的發育階段(development stages);評量治療的結果等等。測驗的結果還可以提供對受測者個人生活產生重大和長遠影響的決策訊息(如:制定職業和教育決策、診斷、制定治療計劃、挑選決策、干預和結果評量、假釋、判刑、民事責任、兒童監護、出庭能力和人身傷害訴訟等)

測驗選擇與施測編輯

在評量過程開始以前,受測者應該清楚以下事宜,如:誰將有權利知道其測驗結果和測驗的書面報告;測驗結果怎樣通知受測者;如果根據測驗結果所做的決策需要通知受測者本人或第三方的話,在什麼時候通知他們,等等。評量過程以盡可能弄清楚對使用者進行評量的各種理由開始,並以這些理由和其他相關考慮為指導原則,選擇需用的測驗、量表和診斷程序,確定評量受測者時所需要的其他訊息。在選擇測驗時,測驗專業人員不能只注重測驗的名稱,而要以研究文獻中有關該測驗的效度和信度證據以及現有的常模數據資料的適用性為指導原則。除了精通合適的施測程序以外,測驗專業人員還要熟悉所選擇的測驗和量表的預期用途和使用目的的信度和效度證據等,並隨時準備通過邏輯分析從各個角度對評量過程和根據評量所做的推斷提供支持。

在選擇測驗時,首先要考慮的是信度和效度。但是,目標受測者所屬群體的統計特徵(如:性別、年齡、收入、社會文化和語言背景、教育和其他社會經濟變量等以及隨後的常模數據資料也是選擇測驗的重要依據。因此,根據與受測者相似的常模群體的統計特徵來選擇測驗,對於專業人員在對所作的推斷試圖進行概化時舉足輕重。有時,測驗中的某些計畫和試題是針對某一特定的受測群體設計的,它們對另一受測群體可能沒有多少價值。因此將針對某一受測群體設計的測驗用於測驗另一受測群體時,必須提供適當的限定條件,說明測驗的選擇是以相關研究數據資料和專業經驗為基礎的。

為特定的客戶選擇心理測驗和量表經常是人格化行為。然而,在有些情況下,一個預先確定的測驗組合則可能會用於所有的受測者,而且可能還要提供群體分數的解釋。受測者可以是兒童、青少年或成年人。使用測驗和量表的場合包括(但不僅限於)學前、小學、初中或高中、學院或大學、就業前或就業中、心理健康或門診部門、醫院、監獄或專業人員的辦公室等等。

督導測驗和評量工作的專業人員要確保讓所有的施測人員和評分人員都有機會接受有關執行各項考務任務所需要的教育和培訓。另外,在群體測驗條件下,測驗的專業人員還要負責對測驗結果的使用者進行培訓,以便對測驗分數進行合理的解釋。

在進行心理測驗時,應該按照標準化的施測程序進行。如果實在不能按標準化施測程序進行測驗時,則應該對這種做法予以說明並提出合理的理由。其次,測驗的專業人員還要負責確保測驗條件的合適性。比如:考官可能需要了解受測者是否具備了測驗所要求的閱讀水平,以及對患視覺、聽覺或神經殘障的受測者的調整要求是否得到應有的滿足。最後,測驗專業人員還要負責測驗結果和測驗材料的保密與安全。

對受測者進行個別測驗的優勢之一是為施測人員提供了一個直接觀察受測者解題的機會,並可以根據需要及時經調整測驗條件。在某些情況下,個別施測可以為內行考官提供一個在標準化的測驗條件下仔細觀察受測者作答行為表現的機會。例如:通過觀察,考官可以更精確地記錄受測者對所評量的行為的表現,更好地了解受測者的解題方式,確定受測者在測驗中的強項與弱項,並在測驗過程中及時對測驗程序做出必要調整。因此,經過專門訓練的專業人員對受測者的觀察結果,對測驗使用的各個方面都是重要的。

測驗分數的解釋編輯

比較理想的解釋測驗分數的作法,是根據現有的常模數據資料、測驗的心理測量特徵、所測量構念的穩定性、監考員變量的效果與受測者的統計特性(如:性別、年齡、收入情況、性傾向、社會友化和語言背景、教育和其他社會經濟變量等)等對測驗結果的影響情況,對測驗分數進行解釋。測驗專業人員很少擁有現成的數據資料資料來源,並親自對測驗分數解釋的依據進行研究,或建立必要的代表性常模對每個受測者目前和將來的行為表現情況進行準確推斷。

因此,專業人員可以使用既有的、能確保對測驗分數作出合理推斷的研究成果和科技知識。測驗信度和效度證據的說明與分析,通常不一定需要以書面報告的形式表現。不過,一旦需要時,測驗的專業人員要盡力掌握並隨時準備提供這種證據.滿足較高技術質量標準的測驗和量表是確保測驗分數合理使用和解釋的必要條件,但不是充分條件。負責解釋分數和整合心理測驗各種推斷的專業人員的專業水平,取決於其教育背景和個人資歷。

隨著個人從業經驗的豐富和積累,專業人員會逐漸認識到:如果將專業判斷力放在一個連續不斷的軸體上來看的話,軸體的一端是簡單的初選性量表,而另一端則是複雜的、綜合性的多維評量。評量手段的複雜性從一端移向另一端而逐漸增加,解釋分數的難度也隨之增大。比如:對學業成績測驗和能力測驗分數的解釋、對人格測驗分數的解釋、對神經心理測驗分數的解釋,在專業判斷力連續軸體(continuum of professional judgment)上分別代表從簡單到複雜的不同點。無論所使用的測驗的技術性能多麼完善,對專業人員的業務水平、判斷能力和分析技巧的要求都越來越高。相對於群體施測和(或)電腦施測所必須的教育背景和經驗要求而言,解釋個別施測的測驗分數對專業人員的資格要求更嚴格。使用和解釋個別施測得出的測驗結果要求測驗專業人員有嚴格的理論訓練和實際操作訓練,高度的專業判斷力,相當的資格驗証,並堅持和遵守職業倫理準則。

根據測驗分數對受測者的過去、現在和未來行為表現和其他特徵進行推斷時,專業人員要查閱相關文獻,熟悉有關的支持性證據。如果有充分的證據支持測驗的信度、效度及測驗對所評量的使用者的適用性,那麼專業人員做出推斷的可能性就更多一些。儘管如此,專業人員還是需要借助如面談和其他測驗結果等不同來源的訊息,來証實本測驗的結果。如果測驗的推斷僅僅以某一次或幾次研究的結果為基礎,而這些研究所採用的樣本對目標受測者又缺乏代表性時,專業人員在對測驗結果進行推斷時更要謹慎。

評量中獲得的各種實証訊息和數據資料,包括在測驗中根據對於受測者的觀察所獲得的應考行為(test-taking behavior)和作答風格等訊息,將會提高推論的準確性。還有一點很重要,即對於那些並不支持測驗推論的數據資料,要麼予以說明,要麼指出它們在肯定推論時的局限性。

基於現有的研究水平,對受測者的測驗分數進行解釋時,既要考察測驗分數和參照標準之間的關係,又要衡量參照標準的合理性。為了了解測驗分數可以在多大程度上對所測構念做出推斷,需要對參照標準和作為預測變量的測驗進行剿以的考察。

通過明確界定心理測驗用法的具體程度,可以將各種對解釋測驗分數的不利影響降低到最低限度。這些不利因素來自於構念無關變異量(如與測驗分數目的無關的各方面因素)和構念代表性缺乏(如:有許多與測驗目的相關的重要因素,但測驗對此並沒有涉及)受測者的答題偏差(response bias)也是與構念無關因素的例子之一,它可能使分數分布曲線嚴重不對稱,甚至導致分數無法解釋。因此,如果事先已經預知受測者會有答題偏差,專業人員就可以選用那些帶有糾偏能力試題的測驗(如在正規測驗後面附加一些冒充不好的、冒充好的、社會稱許性的、「肯定」或「否定」百分比的題目,澄清測驗效度是否受到受測者答題偏差的不利影響。

這樣,專業人員就能夠評量受測者在多大程度上刻意迎合考官,並在測驗中“假裝不好"或“假裝好"的傾向。在解釋答題偏差分數時,要對答題偏差裡所測構念的效度證據、對每個分數量尺的內部一致性、對量尺之間的相互關係及有關效度證據進行綜合考慮。

職業諮商和神經心理測驗之類的評量經常使用到測驗組合(test battery)。這種測驗組合通常包括對語文能力、數字能力、非語言推理、機械性推理、文字處理的速度和準確性、空間能力和語言使用能力的測驗。有些測驗系列還包括興趣和人格量表等。如果心理測驗組合是由多種記分和多種測驗方法構成的話,那麼往往需要對測驗結果的結構進行解釋,以便揭示測驗所要測量的構念或者各種構念之間的相互關係。根據測驗分數模式的基礎,有時可以確定測驗結果要評量的構念以及各種構念之間的高階相互作用。支持分數的建議性解釋的信度和效度證據的研究報告應該有據可查。如果研究報告不完整,可以提出一些假設性推斷,並指出這些推斷還有待於進一步檢驗和確認,而不應給出一些帶概率值的陳述,讓人誤以為效度證據已經存在。

心理測驗和心理衡鑑中使用的輔助訊息編輯

通過從第三方(例如,教師、私人醫生、家庭成員、學校、及工作履歷等)獲取可靠的輔助訊息,有助於提高心理測驗和心理衡鑑的質量。通過使用各種不同方法獲得訊息也會提高心理測驗的效果。對受測者進行系統的行為觀察、檢核表、面談、標準參照和常模參照等測量手段是用來獲取訊息的幾種常用方法。除此之外還有許多其他方法。通過獲取刻畫人格特徵的多種特質或屬性的訊息,也可以提高心理測驗的使用效果,例如,參考受測者目前和以往的工作簡歷、通過施測評量受測者的學業能力和成績表現、職業興趣、工作價值取向和人格氣質特點等,可以提高職業目標的評價效果。借助不同的方法、從不同來源獲得受測者多種特質的訊息,可以幫助專業人員更準確地評量受測者的心理行為表現,並提高專業人員的決策效果。

心理測驗的類型編輯

為了論述的方便,我們將心理測驗的類型劃分為五種,即認知和神經心理測驗;適應性、社交和問題行為測驗;家庭成員和配偶關係測驗;人格測驗;職業測驗。

1.認知和神經心理測驗編輯

心理測驗經常用來對受測者的各種認知和神經心理功能進行評量,包括,智力、一般能力領域(broad ability domains)(如語文、數學和空間能力)、側重能力領域(focused domains)(如注意力、感覺運動功能、推理能力、執行功能和語言等)。當然,測驗不同的功能或知識面的測驗所評量的構念之間可能互相重疊。與其他類型的測驗一樣,認知和神經心理測驗對受測者的注意力水平也有一個最基本的要求。

A.認知能力(cognitive Ability)

用來量化認知能力的測驗手段使用得最為廣泛。對認知能力測驗分數的解釋,要以編製測驗時所依據的理論構念為指導。

不少認知能力測驗由多向度測驗系列組成,主要是用來評量受測者多方面的能力和技能。個別施測的測驗系列可用於診斷認知障礙等目的。認知能力測驗的結果用於推測受測者智力行為表現的綜合水平和認知能力各方面的強弱。由於測驗系列中的每個分測驗所考查的是不同功能、能力、技能或者它們的某種組合,因此,不對測驗系列進行綜合記分,而是將每個分測驗的分數置於其他所有分數和評量數據資料中進行解釋,可以更好地理解受測者的行為表現。比如:在對分測驗分別記分時,如果受測者在限時測驗的得分較低,這或許意味著受測者存在著反應速度方面的問題。如果將各種不同分測驗的分數進行總計,這個問題可能就會被忽視。

B.注意力(attention)

注意力測驗是指以包括喚起、拼裝和打散一組圖像或是其他東西、持續注意力和警惕性等為構念的功能。注意力測驗可以從以下幾個方面的水平對受測者進行測量,亦即:警覺性、方向感(orientation)和定位感(localization);集中、轉移和維持注意力,以及在不同條件下追蹤一或多個刺激物的能力;注意廣度;訊息處理速度和選擇反應時間;以及短期訊息儲存容量等。對注意力所考核的各個方面的得分應該分別報告,以便弄清楚受測者注意力障礙的性質。

C.運動、感覺運動功能和側磁傾向(motor, sensorimotor function and lateral preferences)。

受測者的視覺、聽覺、體感、其他感覺敏感性和辨別力,可以通過受測者對選擇性刺激所作的簡單運動或口頭反應來測量。

D.知覺和知覺組織/整合(perception and perception organization/ integration)

這種功能涉及到推理和判斷,而這種推理和判斷與複雜的感官組合和輸入的加工及合成有關。知覺測驗可能注重即時知覺加工,但有時也要求一些包括某些推理和判斷過程的概念化能力。有些測驗帶有神經運動的成分,包括從簡單的運動反應到複雜的運動結構等。另外,知覺測驗可能會使部分受測者因非知覺障礙所引起的反應遲緩而處於不利地位。

E.學習與記憶(learning and memory)

這一類功能主要是指訊息獲得與保持的能力,它超出即時或短時訊息加工和存儲能力的要求。這種測驗主要通過不同類型的感官渠道以各種不同的測驗形式(如:詞彙表、散文段落、幾何圖形、表格、數字、和音樂旋律等)來對受測者獲取新訊息的能力進行測量。記憶力測驗可能還要求對原有訊息(如,個人資料及平時所學的常識、技能等)的保留和回憶。

F.抽象推理與分類思考(abstract reasoning and categorical thinking)

推理和思維能力測驗的範圍非常廣泛,它們可以用來評量受測者對各種關係的推斷能力或對不斷改變的環境條件做出反應的能力,以及受測者為了實現某種目標所作各種努力的能力。

G.執行功能(executive functions)

這類功能涉及到一系列有組織的行為表現,這種功能在各種認知加工、解決問題和社交情境中,對於獨立地、有目的地、有效地實現個人目標必不可少。有些測驗強調的是基於己預見到各種解決方法的後果而制定的合理行動計劃,是解決問題過程中基於目標定位的靈活表現,是為了達到預期的效果而對行為進行的必要調整。

H.語言(language)

語言能力的評量通常集中在對於音位、詞法、句法、語義和語言使用的評量上。它也可以是對語言的接收和表達能力進行評量,包括:聽、說、讀、寫四種技能的評量。

對於中樞語言障礙評量的重點則集中在對功能性言語(functional speech)和語文理解(verbal comprehension)的評量上,這方面的測量主要是通過對口頭、書面或手勢、詞彙辨認與解釋、復誦口語以及聯想性語言流暢性的測量來進行。

在對母語為非英語或雙語、多語言背景的受測者進行評量時,語言評量經常包括受測者對語言能力和不同語種之間所掌握的主從順序的評量。為了診斷多語種受測者是否存在某種語言障礙時,專業人員必須考慮諸如受測者的語言障礙究竟在多大程度上是直接由與語言相關的質量所決定的(如;音位、詞法、句法、語義、語用延誤、智力遲鈍、末梢感覺或中樞神經障礙、心理狀況、聽力障礙等)而不是由於英語不是其主要語言而造成的。

I.學業成就(academic achievement)

學業成就測驗是指對於受測者通過正式和非正式學習機會所獲得的學科知識和技能的測量。學業成就測驗主要包括一般成就測驗組合和診斷性成就測驗兩種。一般學業測驗組合是用來評量受測者在多學科領域(如:閱讀、數學、拼寫、社會研究、科學等)的學習水平。而診斷性成就測驗則通常集中在一個特定的學科領域(如:閱讀),從較深層次上對受測者的重要學科技能進行詳細評量。

學業成就測驗的結果可以用,來確定受測者在學業上的優勢及存在的具體困難,有助於發現受測者所存在的問題的根源及找出克服這些問題的方法。

第十三章對於學業成就測驗在教育情境中的應用提供了詳細闡述。

2.社交、適應性和問題行為測驗編輯

對社交、適應性和問題行為的測量,主要是為了評量受測者關注自我和與他人相處的能力和動機。適應性行為包括個人在滿足日常常生活和環境的期望方面所具有的一系列知識、技能和能力,主要包括:飲食、著裝、使用交通工具、與同伴相處、與他人溝通、購物、理財、工作和生活的計劃性、完成學業和勝任工作的能力等。問題行為則指在日常生活中影響個人有效地發揮以上功能的行為調整困難。

3.家庭成員和配偶關係測驗編輯

家庭成員關係測驗所評量的問題主要有:家庭活力、融洽程度和家庭成員之間的關係,包括配偶之間、家長之間、孩子之間和其他大家庭成員之間的關係。用來評量家庭和配偶關係的測驗,可以按照測驗所測量的是部分或是整個家庭成員之間的互動模式進行劃分,它要求同時對兩個或多個家庭成員進行測驗。對配偶關係的測驗則可能會涉及到許多個人因素,諸如;配偶親密程度、融洽性、共同興趣、信任程度和精神信仰等。

4.人格測驗編輯

廣義上講,人格評量需要對影響受測者在思想、態度、情感和行為的形成與表現的各種個人因素進行綜合考慮。在對受測者進行評量時,可以對認知和情感行為表現分別考慮。不過,它們之間的影響是互相聯繫的。比如:一個知覺非常準確或情緒相對穩定的受測者,相對於一個知覺不夠準確或情緒不夠穩定的受測者而言,前者可能比後者能夠更好地控制自己的猜疑心。

測驗編製的主要取向

人格測驗的分數可以看作是潛在的理論構念的反映,或是實証性衍生分數的反映,或是指導編製測驗的那些因素的反映。

測驗的形式

人格測驗的刺激反應形式有很多。有些心理測驗由一系列問題(如:自陳量表等)組成。要求受測者在若干定義明確的選項中做出選擇;還有一些心理測驗問題需要將受測者置於一個新的環境中進行。這時,受測者的反應並不完全是有系統的(如;受測者對視覺刺激的反應、講述故事、談論圖畫或對其他形象化刺激的反應等)對這些反應記分後,再和根據以往的研究建立的以邏輯或統計方法確定的向度相結合。

正常人所用的

人格測驗可以用來對正常或畸形的態度、情感、特質和相關特性進行評量。編製測量正常人格特徵的測驗旨在獲得能夠反映受測者在人格向度上表現程度的測驗分數。這種人格向度已通過實証研究的確定和假設,在大多數人的行為中存在。受測者的分數在這些向度上的分布結構,可以用來對受測者當前和全新環境中的行為表現進行推斷。超過期望值範圍的分數既可以被認為是正常的出色表現,也可以被認為是精神病態(psychopathology)。這種極端分數也可能反映受測者在不同於常模群體的樣本的文化氛圍裡的正常行為功能。

異常人所用的

其他人格測驗被用來專門測量心理變態和精神異常的構念。測驗的研製者利用那些已經被確診的心理變態患者來建立量表,根據一定範圍內的量表分數與範圍內受測者的行為表現之間的關係來做出推論。如果根據測驗分數所做的推斷超出了測驗賴以建立的理論,就必須通過另外搜集和分析相關數據資料來對診斷結果進行效度驗證研究。

5.職業測驗編輯

職業測驗一般包括對於個人興趣、工作需求和工作價值觀的測量,以及對生涯發展、思想成熟程度和個人性格優柔寡斷情況的相關因素進行評量。測量這類構念的量表的結果經常被用來提供各種參考訊息,幫助受測者本人的個人成長、了解自身的特長並做出正確選擇,提高相關專業人員在生捱發展諮商、職業淘汰諮商(outplacement counseling)的效果和職業決策水平。職業測驗的這種干預行為通常發生在教育情境中。

不過,興趣撿測表和工作價值取向的測量也可以在企業環境中使用,其結果可以部分作為培訓和發展計劃、職業規劃、或選 拔、升遷和晉級決策的基礎。

A.興趣量表(Interest Inventories)

興趣量表是用來測量和確定受測者對於不同活動偏好的程度。自我報告式的興趣量表(self-report interest inventories)廣泛用於評量受測者對不同工作和娛樂活動、學校課程、職業或不同類型的個廣可以揭示受測者表現在教育課程(如:大學專業學科)和工作領域上(如具體職業等)的興趣類型或模式,或是探索與某些具體活動(如,銷售、辦公室活動或機械活動等)相關的或更基礎的興趣範圍。

B.工作價值觀量表(Work Values Inventories)

工作價值觀量表可以用來確定受測者對於工作活動中所獲得的不同成就感的個人偏好。有時,這種價值觀被界定為受測者在工作中所追求的個人滿足感。

工作價值觀或工作需求可以分為內在需求和外在需求兩種,前者注重和追求的是從工作活動中獲得個人樂趣(如:獨立性、個人能力發揮、成就感等),而後者則注重和追求工作活動所帶來的回報(如:同事關係、領導關係、工作條件等)。

工作價值觀測驗的形式通常要求受測者對量表項目所描述的工作價值觀的重要性進行自我評價。

C.生涯發展、成熟性和果斷性的測量(Measures of Career Development, Maturity and Indecision)

職業評量的使用範圍還包括對受測者生涯發展、成熟程度和職業的果斷性進行評量。測量生涯發展和職業選擇中思想成熟狀況的量表,通常要求客戶對一系列測驗項目進行自我描述性的回答。通過這些測驗項目可以考查受測者對於所從事職業的認識、決策技能的自我評估、對待職業和職業選擇的態度,以及受測者對個人職業規劃的投入程度。

職業果斷性的測量一般要進行標準化處理,以便評量受測者的職業果斷性程度及導致優柔寡斷的原因或先例。

在生涯發展、職業選擇的成熟程度、以及職業的果斷性評量中所獲得的訊息,可以被個人或團體用來進行職業輔導和評量職業干預的效果。

心理測驗的目的編輯

為了本章論述的方便,我們將心理測驗的用途分為四種,即:診斷性測驗;處遇規劃和效果的評量;法律和政府決策;自我意識、成長和行動測驗。不過,這四種測驗用途之間並不是互不相干的。

用於診斷的測驗編輯

所謂診斷,就是指結合受測者目前和以往的個人歷史記錄,以及在相關情境條件下,對測驗結果決定受測者的心理健康行為和心理障礙特徵,進行訊息收集和整合的過程。心理障礙可以在測驗受測者的認知、情感、社交、人格、神經心理、身體、知覺和運動神經特質時,所得到的各種訊息中呈現出來。

A.心理診斷(Psychodiagnosis)

心理測驗對於從事心理診斷的專業人員來說很有幫助。心理測驗可以用來証實或排除其他診斷結論的真實性。不同診斷類型之間的共發性也使得心理診斷過程變得相當複雜。比如:一個被診斷為「神經分裂症」的病患同時也可以被診斷為「憂鬱症」。或者,一個被診斷為患「學習能力障礙」的兒童也可以被診斷為患有「注意力缺乏症」。心理診斷的目的就是針對每個受測者的心理或行為「機能障礙」,即受測者或第三者認為影響其達到所期望的行為表現或不能享受正常生活的各種障礙,幫助受測者接受合理的干預治療措施。在制定治療計劃時,專業人員經常從治療角度(如:焦慮的程度、疑心狀況、對診斷解釋的認可態度、行為認識能力和智力表現水平等)對受測者的行為表現採用不分類診斷描述。

選用測驗的方法

在評鑑一個心理測驗是否適用於被評量的對象、能否得到正確反映某一特定診斷症狀的分數或訊息時,專業人員首先要將測驗所測量的構念與診斷準則(diagnostic criteria)中所描述的病理症狀(symptomatology)進行比較。這種比較對於評量和診斷過程舉足輕重,因為不同的診斷系統可能使用相同的診斷術語來描述不同的症狀;甚至在同一個診斷系統(如,DSM-IV)中,用相同的術語來描述的症狀,在不同版本的診斷標準手冊之間也有差異。

同樣,在測驗名稱中使用某一診斷術語的測驗與另一個相似名稱的測驗或同名稱的分測驗也可能很不相同。比如:有些診斷系統可以根據行為病理症狀(如心理活動遲鈍、食欲或睡眠失調等)、情感病理症狀(如情緒煩躁不安、感情冷淡等)、認知病理症狀(絕望的想法、病態等)以及其他病理症狀對抑鬱症進行界定。另外,不同診斷類型的症狀之間並非互不相干。因此,同一症狀可能具有不同診斷類型。如果對包括在某一診斷類型中的各種症狀和評量症狀的每個測驗的適用性賦予合理的權重,就可以從測驗分數中得到更有價值、更精確的推斷。

使用多種方法

在對某些特定的診斷類型進行評量時,可以使用不同的方法。有些方法主要依靠結構式的面談(structured inter-views),用是或否的回答形式對受測者進行測驗。在這種形式的測驗中,專業人員感興趣的是某一其體診斷病理症狀的存在與否。其他方法則經常主要檢查人格或認知功能,並使用所得到的分數結構模式對受測者進行診斷。這種分數模式結構可以反映受測者的試題解答模式在多大程度上與以往研究所確定的某個具體診斷群體相似。

根據測驗分數對受測者所作的診斷通常以測驗分數和診斷類型之間的實証關係為基礎。目前,針對某些診斷類型,已有不少揭示測驗分數和診斷類型之間相互關係的效度研究成果。有時,有些效度研究測驗還缺乏支持性的證據,但也有助於專業人員作出適當的診斷結論。比如,這種情況可能發生在一個測驗所評量的症狀正好屬於一個特定診斷類型的診斷標準的一部分時。儘管專業人員本人往往不可能對所得到的測驗分數和推斷之間的關係進行研究,但是他們應熟悉分數與推斷之間關係的研究文獻則非常重要。

整合多種訊息作結論

通過對測驗結果和受測者在其他有關行為表現方面的訊息所做的推斷進行整合,專業人員經常可以提高由測驗分數推導的診斷推斷效果。受測者的其他訊息包括:個人歷史的自我報告、關係親密的親友所提供的訊息、在自然環境和測驗環境中對受測者進行的系統化觀察等。在作診斷結論時,專業人員還要尋找那些並不支持其診斷結論的訊息,並根據這些訊息對診斷結論的把握性程度有所保留。

如果診斷結論涉及到轉科求診時,專業人員還要提供其他各種診斷結論供參考。在對受測者究竟屬於哪種診斷類型下結論以前,專業人員應該特別注意所有的相關數據資料訊息。並且,為了避免誤診和誇大某些從文化角度來講本屬於合理的行為、情感或認知症狀,在下診斷結論時要特別注意文化敏感性問題。測驗還可以用來評量維持或繼續使用最初診斷結論的合理性如何,特別是在受測者經過一段時間的治療或者受測者的心理行為表現已經隨時間發生改變時,更是如此。

B.神經心理診斷(Neuropsychodiagnosis)

神經心理診斷對受測者當前的心理和行為狀態進行分析,包括了解由腦損傷或疾病引起的神經、神經病理和神經化學方面的變化。神經心理測驗的目的通常包括(但不僅限於)以下幾種情況,即:認知、知覺和人格機能障礙的心理原發性和神經原發性的區別性診斷;大腦機能失調的兩種或多種可疑病因的區別性診斷;對大腦、大腦皮層或大腦亞皮層活動的繼發性障礙行為的評量;為了跟蹤發展中的大腦疾病或康復效果而建立神經心理狀況基線的測量;對藥理、手術、行為或採取心理干預措施前後的比較;為了制定康復策略和治療計劃而對高級大腦功能和機能失調模式的確定;以及為了幫助法院審判人員在刑事和民事活動中了解事實而對大腦行為功能予以定性等。

用於處遇規劃和效果評鑑的測驗編輯

通常,專業人員借助測驗結果對處遇措施進行規劃、實施和評量。因此,了解那些測驗結果與計劃中的處遇措施及預期結果之間關係的效度訊息,不論是有利還是不利,都很重要。處遇措施可以防止一種或多種症狀的侵襲,可以穩定或克服相關症狀,緩解它們的損害,降低它們的影響,並且滿足個人身體、心理和社交的基本需求。

通常,處遇規劃首先對心理障礙的程度和性質進行評估,對可能消除心理障礙的個人或環境條件進行考察之後,才制定處遇計劃。隨後所進行的評價則是為了進一步確定障礙的性質和嚴重程度、考查處遇的效果、根據需要隨時修改處遇計劃,並保証其符合倫理和法律的標準。

用於司法和政府決策的測驗編輯

作為心理衡鑑的一部分,客戶可能會主動要求做心理測驗,以便幫助他們處理與司法或政府機構有關的事務。反之,法院或其他政府機構有時也會要求客戶必須接受某種心理或神經心理評量。這可能涉及一系列測驗,這樣做的目的是為第三方、客戶律師、反方律師、法官或行政部門提供與涉案客戶心理行為表現有關的重要訊息。在為司法和政府部門做評價服務時,首先必須明確評價的目的、誰是測驗結果和測驗報告的知情者以及客戶是否有權利拒絕參加法院所要求的評價等問題。

在司法和政府機構的情形裡,心理測驗的目的取決於所涉及的法律糾紛。因此,對測驗目的各方面重要訊息的詳細了解,在評量中具有舉足輕重的作用。法律糾紛可以以民事訴訟(如,過失責任、遺囑能力、出庭受審能力、假釋、兒童監護、人身傷害、歧視性糾紛等),刑事訴訟(如,出庭受審能力、精神病無罪、判刑中的減刑等),對殘障雇員的合理調整裁決,行政訴訟或裁淀(如,吊銷執照、假釋、雇員賠償等)等形式出現。每一種法律糾紛都在適合於特定司法審判範圍的法律中進行了界定,而每種法律糾紛的界定都可能涉及到特定的審判權。比如:對某一當事人做出過失犯罪所依據的標準在不同的立法選區之間就不相同。另外,起初為用於某一目的而進行的測驗現在也可能用於另一種目的(如:最初在 民事案件中使用的測驗,後來卻可用於行政或刑事訴訟案件中)。

立法機關、法院和其他行政機關經常使用通俗語言而不是診斷性或其他技術性的心理學術語對法律問題進行界定。因此,測驗的專業人員有責任根據陪審團、法官或行政部門在裁決法律糾紛時所使用的法律標準,對包括測驗分數和由分數得出的推斷之診斷參照體系對當事人進行解釋。比如:對神經分裂症或神經心理障礙患者的診斷。由於這種診斷並不參考法律標準,它既不能剝奪受測者在一場子女監護權糾紛中對其子女有完全監護的權利,也不能免除當事人的刑事責任。

在涉及法律或準法律糾紛時,為了確保法律訴訟程序不影響受測者的作答反應,對受測者及其答提偏差在內的應試動機進行評量非常重要。比如:一個由於受到人身傷害而爭取獲得最大經濟賠償的當事人,可能會有意識地誇大其認知或情感傷害症狀;而一個企圖保住專業執照的人,則可能會掩飾他的症狀或缺陷,而儘可能表現好的一面。

因此,在做出評量意見以前,必須結合與現有的信度和效度證據有關各種知識,對測驗分數進行解釋。在形成評量意見時,還必須整合測驗分數和與受測者目前行為狀況有關的所有訊息,如:心理、醫療、教育、法律和其他相關的附屬記錄等。有些測驗被用來獲取受測者的行為表現訊息,以便澄清某些具體的法律糾紛(如:在子女監護權案件中作為家長的行為能力,或在庭審中作為被告對指控的理解能力)。

有些測驗手冊還提供對涉案當事人具有代表性的常模樣組在人口統計特徵和健康保險精算方面的數據資料。不過,很多測驗還是測量與法律糾紛有關的一般構念,沒有針對司法或政府事務相關的具體常模。在這種情況下,就要求測驗專業人員要盡可能清楚知道支持或不支持其推斷的信度和效度證據,並對最後提交的診斷意見提供恰當的使用限制條件和保留意見。同時,在司法和政府事務實務中,測驗的使用者也應該清楚:當事人雙方利益的衝突在測驗結果的解釋中可能會導致偏差。

保護客戶的測驗結果和測驗工具本身,對於那些與客戶律師、法官、陪審員和其他法律或準法律決策者有密切關係的專業人員來說,是一個頗具挑戰性的問題。受測者有權要求其測驗結果僅限於在合法知情者之間進行溝通,而對測驗過程中與評量無關的其他訊息不予報告。因此,專業人員應該充分重視可能威脅測驗安全和保密性的各種因素(如:將試題、受測者的作答資料、測驗的原始分數和量尺分數轉讓給另一個合格的專業人員等)如有必要,還要努力尋求各種適當的法律保護措施和萬一泄密時的專業補救措施。

用於自我意識成長和活動的測驗編輯

使用測驗和量表提供的各種訊息,常用來幫助受測者更好地了解自己,發現自身存在的各種優勢與弱點,並弄清那些對個人決策和個人事業發展舉足輕重的問題上。比如:人格撿測表的結果可以幫助受測者更好地了解自己和了解自己與他人的互動關係;興趣量表和能力測驗的結果對那些正在制定教育規劃和進行職業選擇的受測者頗有幫助。而經過常模處理和標準化處理的、適合兒童認知和神經心理的測驗,則會提高發育期內對兒童成長和發育的監測效果,並根據跟蹤監測的效果,採取有針對性的相關干\預措施,防止對潛在致殘因素和各種學習障礙的忽視和誤診。測驗結果可以用於了解自我、指導自我發展和進行多方面決策。首先,測驗結果能夠為受測者提供將自己和他人進行比較的新訊息,或者通過自我描述和刻畫來對自己進行評量。其次,測驗結果還可以促進受測者與專業人員之間的溝通與討論,引導受測者深入思考,為其確定未來發展方向提供參考,幫助受測者發現自身的長處與價值,為專業人員提供組織和整合有關受測者訊息的基本架構。為個人成長提供服務的測驗,可以作為教育或職業規劃過程的一部分,將其用在制訂培訓和發展計劃和教育課程、心理治療過程、康復計劃和其他實務中。

小結編輯

無論在深度上,還是在廣度上,心理測驗都還在發展中。心理測驗的目的、程序、評量需要及面臨的挑戰都在變得更加多樣化。因此,在心理測驗的實務中,專業人員要承擔正確使用心理測驗的義務,掌握並具備選擇、施測、和解釋測驗和量表結果所必備的知識和能力,因為這種知識和能力是心理測驗和評量過程成敗的關鍵因素之一。本章的有關標準為專業人員在其教育背景、個人經驗和道德素質的範圍內,提供了使用心理測驗取得理想效果的指導架構。與心理測驗和評量有關的前幾章內容及標準,對測驗質量(第一至六章,第十一章)、測驗公平性(第七至十章)和測驗使用(第十一章)的一般因素進行了描述。第十三章討論的是心理測驗在教育中的應用問題。第十四章討論的是測驗在工作中的使用(包括資格驗証)以及收集數據資料的重要性問題,特別是那些能夠証明測驗在預測受測者工作表現時具有較高準確性的數據資料。第十五章討論的則是測驗在計畫評鑑和公共政策中的使用問題。 MTT:有關心理測驗的標準

教育測驗與評量編輯

本節討論包括從幼兒園到研究生階段正規教育中的測驗。施測於學生的測驗成績被用作判斷個人或群體的現狀、進步或取得的成績等。

關於個人表現的測驗訊息會用於以下幾方面:(1)評價學生分別在各學科或所有學科領域所達到的水平和取得的進展;(2)診斷學生在某一特定學科領域的優勢或不足;(3)針對個別學生的需要規劃教育干預和設計教學計劃;(4)將學生安置在合適的教育方案之中;(5)當某個計畫的名額有限時,選拔合格的申請者;(6)確認學生個人所達到的成就水準或所具備的資格。

學校、學區、州等這類群體狀況的測驗訊息可以用於:(l)判斷和監控教育計畫對全體學生的教育質量或對某一特定群體學生的教育質量;(2)推斷某項教育政策或教育干預措施的效果。這些目的的用途通常是由學校、學院等教育機關的規定,或由公立和私立的教育主管部門的規定。

本章的討論將涉及有關教育測驗的三個大領域,這些領域都與上述某一個或多個測驗目的有關:(1)學校的、學區的、州的或其他系統範圍的常規測驗計畫;(2)用於高等教育篩選學生的測驗;(3)個人化的或特殊用途的測驗。系統範圍內的測驗可以實現多重個人的或群體的測驗目的,而第二和第三個領域的測驗,則主要用於那些相對而言較特殊的測驗目的。其實每一領域都包含一些特殊的測驗目的,存在一些特殊的問題。

本章將進一步展開探討與此有關、而前面各章又未能討論和強調的一些問題,這些問題關係到測驗中的質量和公平性。本章將不對教師自己為班級教學而製作和施測的測驗進行深入的探討,也不探討出版商所提供的教學輔導材料。儘管課堂測驗在許多方面與本《標準》有關、尤其是在效度、信度、測驗編製和測驗公平性方面,但本文主要不是針對課堂測驗的。

教育測驗上的議題編輯

本章首先考慮一些「剪不斷,理還亂」的問題:不同類型測驗之間的區別;多重目的測驗的設計和應用,包括對變化的測量;教育情境中不同目的的測驗所承擔的「風險」問題。

1.不同類型測驗和評量之間的區別

應用於教育環境中的測驗既包括如多項選擇題,這樣的傳統題型的測驗,也包括如可以評分的學習歷程檔案,這樣的實作評量(performance assessment)。不管何種形式,所有的測驗都是在測量受測者在一定領域中的表現。對受測者實作評量的評價,是通過模擬一些情境或條件來實現的。在這些情境或這些條件下,受測者需運用那些測驗所要測量的知識或技能。正如第三章裡所討論的,實作評量的特點是多種多樣的,它可以根據最終成果作評量,也可以根據行為過程作評量。完成這類測驗裡所提出的任務通常需要一段時間,可以是幾分鐘,也可以是一節課,幾個小時,甚至好幾天。例如,運用可以掌控的材料解決問題、收集訊息之後做出複雜的推論,或對某項政府法令在一定經濟條件下的執行方針進行口頭或書面的說明,等等。這些操作性的任務可能由一個學生來承擔,也可以由一組學生來承擔。實作評量可能需要增加測驗時間來提供足夠的在某個領域裡的抽樣,以便對受測者的水平做出合理的估計,並據此對受測者在更大領域的表現做出推論。在一些實作評量性評價中,長時段、多方協作和輔助材料的應用等因素,都是這類評量在施測和評分的標準化方面的棘手問題。當測驗允許受測者自己選擇問題或將自己選擇的作品用於評價的時候,這種挑戰尤為突出。在這種情況下,受測者們需要了解評分的基礎,以及評分標準的性質。而且,實作評量常常程序複雜,通常要求評分人員有一定的專業訓練以提高評價的準確性(參看第三章)。

個人的學習歷程檔案(portfolio)是實作評量的另一種類型。可以評分的學習歷程檔案通常是在一段時間內系統收集的教育成果,也可以是表示在一段時間中逐漸進步的教育成果。學習歷程檔案的具體使用目的決定它的內容。這些學習歷程檔案可能包括學生的代表性成果,也可能包括學生最好的作業或反映其進步的其他材料。學習歷程檔案的目的也決定由誰來收集整理這些學習歷程檔案材料,是主考人,還是學生,或者是雙方共同準備。學習歷程檔案內容的標準化程度越高,施測的標準化程度越高,越容易得出以學習歷程檔案為基礎的、具有可比較性的評價分數。為了使分數具有可比較性,可能需要根據一定的測驗說明和標準來建立學習歷程檔案,以及客觀步驟對檔案質量進行評價。在關於學習歷程檔案的測驗說明中有時會指出學生應對學習歷程檔案包含哪些內容要自己做些決定。例如,在建立一個藝術方面的學習歷程檔案時,學生可以選擇最能代表自己作品的媒介。為了建立分數可比較性,還需要規定學生們在建立學習歷程檔案的過程中他們可以得到哪些幫助。當學生們的學習歷程檔案內容不同時,比較學生們的表現水平是非常困難的。所有的實作評量包括可評分的學習歷程檔案評價在內,都需要用與傳統的學力成績測驗相同的技術質量標準來要求。

電子媒體(electronic media)常常被用來呈現測驗材料或記錄受測者的回答。這些測驗可能在學校中施測,也可能在特殊的實驗室環境中施測,還可能在一些校外的考試中心施測。例如,考卷之外幫助受測者增加理解測驗內容的考試指令錄音帶,將傳統的紙筆測驗以電腦方式呈現,電腦化適應性測驗,等等。還有更先進的互動式多媒體測驗手段。在這種環境中,實作評量的特點可以在電腦的輔助下得以實現。有些用電腦做的測驗還具有把握學生解題過程的能力。例如,監控學生每道試題的解題時間,嘗試過的和跳過的試題,或對文章的編輯過程等等。電子媒體還可以滿足一些特殊受測者對於施測條件的特殊需求,例如,來自不同的語言背景的受測者,或存在注意力缺乏、身體殘障的受測者等。在那些需要集體完成的專案計畫(project)中,或是綱路中處於邊遠地理位置的人,電腦還可以確認每個人所做的不同貢獻。

在評鑑以電腦施測的測驗時,應當與其他傳統測驗一樣的技術質量標準來要求。尤其重要的是,受測者應該熟悉測驗媒體,應該熟悉電腦和答題步驟,以避免根據與測驗構念無關因素做出推論。同樣重要的是:說明計分的算法、所依據的專業模式、可以在界定範圍內支持測驗使用的那些技術資料。同時還要保証將測驗資料做存檔記錄後不會危害到測驗題目的保密性,這種危害會對分數解釋的效度起到事與願為的影響。一些以電腦為考試工具的測驗還可能根據測驗結果生成一些關於教學的建議。對這些建議的邏輯基礎的描述,可以幫助測驗的使用者衡量這些建議在自己的特定情境中的適用性。

多重目的和測量變化編輯

許多測驗都被設計得可以用於多種教育目的。例如,一個測驗既可以用來監控學生的學習成績,也可以用來在學校或學區範圍評量一個教育計畫的質量。又如,一個測驗既可以被用來評價一個學生相對於某一個或某幾個參考群體的表現水平,也可以被用來評價一個學生在某一知識領域所達到的能力水平(參看第三、四章)。用來評價目的甲的技術質量所需要的證據,與支持目的乙的技術質量所需要的證據會不盡相同。因此,必須分別就某一特定目的來評價那些支持測驗的技術質量的證據。

測驗結果既可以用來推測一個學生或一組學生目前的狀況,也可以用來推測他們的成長和進步。例如,測驗可以用來揭示教學的效果,揭示教育政策變化的結果,揭示不同干預方式的結果。在這種情況下,測驗具有探測變化的功能是非常重要的。如果兩次測驗分數之間出現差異,那麼,需要注意這這個差異分數的技術質量。更廣泛地講,每當我們做出有關成長和進步的推論時,都需要評價這種分數差異的效度。

測驗的注碼編輯

測驗結果對於個人、機構或群體的重要性常常被稱為測驗計畫的「注碼」(stakes)(譯注:在賭博時押下去的賭注)。就個人來講,那些測驗結果對一個人今後受教育的前途或選擇有直接和明顯影響的測驗,被稱為「高注碼」測驗(比如那些可以影響一個學生升級、留級、畢業、錄取、分配的測驗)。另一方面,那些僅僅用於獲取訊息的測驗,或嘗試性評判的測驗(比如向學生本人、教師、家長提供關於學生在某一學習階段進步情況的測驗),被稱為「低注碼」測驗。當某個樣本甚至整個群體的總成績用來推斷一個教育機構的服務質量,其結果又是作為決定該機構的地位、獎勵或懲處的依據時,教育機構的測驗計畫也會認為是高風險的。例如,人們可能會根據測驗成績來評價閱讀課程和閱讀教學的質量,因為測驗分數可以反映出不同群體的學生的進步速度和所達到的水平。哪怕是僅僅用於監控教育系統這樣低風險目的而以總成績形式報告的測驗結果,公布其測驗結果也可能對一些學校或學區增加風險。測驗結果可能會影響到對該教育機構計畫的質量、人員安排及教育計畫的評價,也可能會影響到他們的政策決定,哪怕這些測驗並沒有用於這些目的的打算。

測驗用途的風險越高,越需要有技術質量強的證據支持以測驗結果為依據的推論。與那些低風險測驗相比,尤其當測驗可能帶給個人很高風險的時候,當一些重要的決策在相當程度上是根據測驗成績做出的時候,為了測驗所宣稱的目的需要追求相對許多低風險考試而言更高的技術質量標準(分別參看第一、第二和第七章,其中分別就效度、信度和測驗偏見有更深入的討論)儘管我們不可能對受測者的測驗表現做出百分之百的正確描述,但仍然需要努力去降低關於測驗分數的估計誤差,降低有關「及格--不及格」,「錄取--拒絕」的決策失誤。進一步而言,為了提高高注碼目的測驗的效度,不論是對於個人還是對於組織,都需要收集各個方面完整的資料,一方面幫助有關人員理解影響測驗結果的各種因素,另一方面,對根據測驗成績做出的推論提供更堅實的支持。以下對測驗的三個應用領域的描述將對這個問題作更充分的討論。

學校、學區、州或其他系統範圍的考試計畫編輯

如前所述,一個教育系統範圍的測驗可能同時兼顧多種測驗目的。就個人層次來說,測驗可能被用於低風險目的,例如,僅僅用於監控學生的學習進度並提供回饋;也可能被用於高風險目的,例如,証明學生在某一知識或技能領域達到了一定的水平,且這種証明將成為有關學生升級、分配、畢業、參加特定教育計劃等決策的依據。就學校、學區、州或其他的集合層次來說,測驗的一個共同目的是評價學生群體的進步,或監控整個教育系統的長期效果。教育測驗計畫還可以被用來對參加不同教育計畫或處於不同教育情境的不同學生群體的表現進行比較,並據此對這些不同的學習環境進行評價。

在這種背景下,教育測驗被設計得可以用來測量課程目標和標準所反映的那些知識和技能。在測驗所測量的知識和技能方面,測驗和測驗之間在廣度和深度方面都可能存在很大的差異。有的教育測驗可能集中測量學生在特定內容領域的一般能力或知識水平,如對數學或自然科學的理解能力。有的測驗則集中測量學生某些具體的知識概念,例如,三角函數。還有一些測驗強調特定的技能或程序,例如,具有說服力的作文、實驗設計、操作、對實驗結果做出解釋等等。測驗還可能考查學生其他方面的認知特質,例如,他們與人合作解決難題的能力,他們關於自己的習慣和態度的報告。測驗還會考查一些非認知能力方面的特質,例如,學生完成某些身體動作的能力。在多數情況下,要想讓測驗成績能夠做出有效的解釋,則需要提供測驗內容與課程目標或標準相符合的證據。

測驗計畫中可能設計一些體現州、學區或其他相關教育專業機構所規定的一般教育標準的測驗。這些測驗在概念上類似於標準參照式測驗,如先建立一套內容標準,通過對測驗所要測量的知識內容和一般技能的界定,來對學生的表現做出一般的說明。隨後建立一些描述性或實証性的成績目標,並將之作為成績標準。這些標準被進一步用來定義對不同年級的學生在知識和技能方面熟練程度的要求。

這一類測驗計畫可能包含設計一個新的用於評量相關知識和技能的測驗,也可能選擇一個現成的可以參照有關標準的測驗。不論測驗是新設計的還是現成的,根據標準對測驗成績所做出的有效的解釋是對測驗範圍和內容與標準或目標的描述性說明之間相符合的程度做出的評量。這種評量過程是檢查和說明測驗的知識內容和技能與標準的內容和技能之間吻合程度的過程,以保証二者之間不會出現脫節或失衡現象。課程目標或標準可能具有足夠廣的覆蓋面,使學生足能以種種不同方式展現自己的狀況、成就和進步。然而,有時候一些標準和目標不具備傳統的測驗形式。在這種情況下,測驗可能缺乏構念代表性,不能反映所要測量的某些重要的方面。在第一章中,就構念代表性缺乏問題曾有詳細的討論。在這種情況下,為了更準確地根據課程目標或標準來對測驗成績進行解釋,不僅需要考慮測驗已經包含了哪些方面,還要考慮哪些方面測驗未能包括在內。有時候,可以在所轄範圍內施測一些考試公司出的測驗或一些地方上編制的測驗,並努力在新測驗所報告的熟練水平與現有的測驗之間建立聯繫,或提供其他的可比較性證據。重要的是,我們需要為測驗之間己公布的關聯提供邏輯的或實証的效度證據。例如,可以收集證據來說明現有測驗在多大程度上可以反映一個或一組學生在標準所規定的特定知識或技能領域中所達到的水平。當測驗被用於測量不同內容時,這種關聯的有效性會有問題(參看第四章,其中討論了測驗的等化和鏈接)。

當推論是根據一組學生的表現做出的時候,實際因素的考慮和測驗的形式(如實作評量)常常導致每個單位內不同學生小組回答一組不同的問題,這種方法稱為矩陣抽樣。這種矩陣抽樣的方法可以在不增加每個學生的測驗時間的情況下,使測驗代表更寬廣的目標範圍。在測驗計畫和學生總體都足夠穩定的情況下,測驗的群體成績最有用,它可提供有關跨時段發展趨勢的訊息。當一個測驗計畫是為報告群體成績而設計並採用了矩陣抽樣方法時,報告這個測驗的個人成績一般說來是不妥當的。

當解釋和應用個人或群體測驗分數的時候,同時考慮其他的有關訊息將有助於增加解釋的效度。這些訊息將為測驗結果的解釋提供更堅實的證據,或可以解釋學生成績的證據。測驗結果可能受到多種因素的影響,包括機構的因素和個人的因素,如所提供的教育質量、學生受教育的經歷(如接受過正規學校教育與否)、學生努力做好測驗的動機水平等。

當學生個人的測驗風險增加時,收集和積累分數解釋和測驗公平性方面的效度證據和資料也變得更加重要。在做出重要決定之前參考測驗之外其他的個人訊息,將提高對個人進行分數解釋的效度。在將其他個人資料和證據與測驗分數一道作為教育決策的依據時,認真檢驗這些資料的可靠性和相關性是很重要的。為了提高測驗的公平性,需要認真考慮那些可能影響到學生展現自己能力的測驗條件。例如,下列各項措施可以在做出有關升級和畢業的決策時改進測驗分數解釋的公平性:(l)通過替換試卷或是用構念相同的其他評價方式來重複測驗,為學生提供多個展示能力的機會;(2)確保學生了解測驗所要測量的知識和技能並擁有相應的備考的材料;(3)為學生提供適當的課程和教學,使他們有機會學習那些測驗所要考查的知識內容和技能;(4)向學生提供相同的準備測驗輔導的途徑(如關於答題策略的輔導)第七章就測驗公平性問題有更深入的討論。

從一個教育機構的層次來講,有關輔助材料同樣可以改進測驗分數解釋和相應的決策。例如,學年與學年之間的分數變化可能不僅僅反映了學生能力的變化,還可能反映了學生總體構成的變化(例如,一批新學生進入統計範圍)不同種族之間的分數差異可能與他們所居住的不同社區之間的社會經濟地位差異相交織,進而影響學生們獲得教育資源的多少。學校與學校之間的測驗分數差異可能反映了學校之間教育資源的差異,如教師水平的差異,或所開高等課程數量方面的差異,等等。當這些因素影響的區域性實証資料當時沒有時,參考有關出版物和文獻中具有相似背景的資料,將有助於對當前的測驗結果做出更好的解釋。

因為社會大眾參與是教育管理系統中的一個重要組成部分,所以教育政策的制定者、教育專業人員和社會大眾都關注教育測驗的性質,關注測驗所測量的知識領域,關注測驗的設計、採納和實施中的種種選擇,關注與測驗結果的有效解釋和正確使用有關的種種問題。重要的是,測驗結果必須以一種使所有的測驗風險承擔人都能理解的方式進行報告。只有這樣,才能保証這種解釋的合理社,才能減少錯誤的解釋和錯誤的決定。

大型測驗日益被視為一種制定教育政策的工具。基於這種觀點,測驗被用來對教育計畫進行評量,如一些州把測驗與本州的課程標準看齊,而不僅僅將測驗作為對學校教學成果的一種測量(參看第十五章中關於將測驗用於教育計畫評鑑的深入討論)測驗還被視為一種影響課程和教學的手段,一種定量評定教師和學校管理者的手段,一種提高學生學習動機的手段,一種向學生、教師、社會大眾傳達教育期望的手段。如果將這些目標視為編製測驗計畫的基礎,那麼,在檢驗測驗計畫的效度時就需要考慮這些目標。重要的是,在所有人們意識到的政策目標之外,還需要注意那些大型測驗可能帶來的意想不到的效應。人們也開始關注這些效應。例如,課程內容被壓縮到僅僅局限於測驗的目標範圍,原本豐富的教學手段和途徑為了適應測驗的形式而變得簡單化,未通過測驗而輟學的學生數量的增加,一些只是增加測驗分數但無助於提高教學質量的教學和管理方式得到助長等等。對於測驗規定者來說,思考和控制這些測驗的後果,及時發現並盡量減少負面的後果,是很重要的。

高等教育中的篩選性測驗編輯

眾所周知,在教育界中,測驗常被用於對申請者的選拔,尤其是被用於大專院校入學新生的選拔。在校內,選拔的標準也會因專業不同而變化。在選拔性測驗成績之外,選拔決策過程中還需要考慮許多其他的證據來源,包括過去的學習記錄成績、成績單証書、平均學科等級平均分數(average grade point)、在班級中的排名位置等等。一些高中畢業生的畢業成績也可能被用於大學的招生錄取。一些教育機構還會採用一些其他的測量評價方式,例如,學生以前作業的樣本、關於學術性和社會性服務活動的記錄、推薦信、學生撰寫的表明自己的學習目標和經驗與申請學校的教育計畫的一致性,或表明寫作水準的意向書等等。

關於錄取過程中測驗的作用,有兩點需要注意。第一,測驗常常與其他訊息資源共同使用。一些補充性證據可能並不可靠,或在申請者之間也缺乏可比較性。因此,考察測驗分數、其他訊息來源的數據資料,以及學生在今後大學中的表現三者之間的關係,非常重要。第二,社會大眾和決策人員需要對普遍存在的大學招生中考試報告的誤用保持警惕。大學招生考試的成績常常被錯誤地作為推斷中學教學效果的根據,並常常據此成績對不同的學校、不同的州進行比較。招生考試,無論是考察成績水平或能力,都與某個具體的課程教學之間沒有直接的聯繫,因此不宜被用來測驗初中或高中學生學習表現的進步。在不同的中等教育計畫之間或是某個中等教育計畫內,存在著一些不同的動機因素和不同的人口統計學特點,不同教育計畫的自我選擇過程已經使測驗分數在不同人口統計群體之間難以比較。因此,自我選擇過程也使測驗分數在大範圍的不同中等教育計畫之間難以比較。

個別施測的測驗和特殊需求測驗編輯

在學校或一些其他環境中,學校心理學家或其他專業人員借助個別施測的測驗來幫助那些有特殊教育需要的學生的學習和發展(參看第十二章)。部分測驗可能用於一些天分超常的學生,或是一些學習上遇到一定困難的學生(例如,那些需要補習閱讀的學生)也有一些測驗用於表現出行為、情感或身體障礙的學生,或學習上有嚴重困難的學生。這些個別施測的測驗既有可能應用於普通教窒環境中的學生,也有可能應用於那些在普通教窒環境之外需要特別輔導的學生。這些服務的最終目的是保証所有的學生都可以受到應該受的教育。

個別施測的測驗可以用於多種目的,包括篩選、診斷分類、干預計劃、和計畫評鑑等等。為了達到摸底的目的,測驗被用來辨認那些明顯與眾不同的受測者和需要做進一步評價的受測者。例如,摸底測驗可以用來確認那些有發育失調蹟象的兒童,並做出該兒童需要做進一步的評價的提示。為了達到診斷的目的,測驗可以借助於某些早己確認的標準將受測者劃分為不同類型,並確定他們的困難和問題的嚴重性。在確定一個學生是否夠格接受特殊教育和有關服務時,測驗結果可以成為重要的依據。如果真是夠格,測驗結果還可幫助測驗使用者確定學生需要什麼樣的服務。測驗結果還可能被用於干預目的,幫助學生建立行為和學習方面的目標、計劃教學的各個階段以及說明提供特殊服務的具體環境(例如,普通教窒、設備室、全日制特殊教室,等等)。在向學生提供特殊服務時,測驗可以被用來跟蹤學生的學習進度,了解學生實現預定學習目標的情況。測驗結果還可以被用來評價教學效果,決定正在進行的特殊服務是否應該繼續、改進或中止。

個別施測和特殊需要的測驗有許多類型,包括認知能力、學業成績、學習過程、視覺和聽覺記憶、言語和語言、視力和聽力以及行為和人格測驗。這些測驗往往與其他的一些評量手段結合使用,例如面試、行為觀察、檔案審查等。每種測驗都可以為關於學生的決策提供有用的訊息。此外,還可以採用一些有助於將評量與干預措施緊密聯繫起來的方法,包括行為評量、學習環境評量、以課程為基準的評量、學習歷程檔案評量,等等。不論評量的質量如何,不論以何種方式為特殊教育中的決策收集資料,用作特殊教育決定的評量數據資料要根據學生的特別需要作信度和效度方面的評量,看其是否有助於幫助那些有特殊需要的學生,以設計更恰當的教育措施。

在進行有關學生的決策時所需評價資料的數量和複雜性,將根據不同的測驗目的、學生不同的需要、學生其他方面己有資料的不同而不同(例如,有的學生具有某個相關測驗的最近一次的分數,而另一些學生沒有)一般說來,當測驗被用於摸底和計畫評鑑目的時,多半只採用一兩個測驗,而不採用整個綜合測驗系列。當測驗被用於設計干預措施和評量干預措施的恰當性時,測驗和評量更具綜合性。因此,可能需要包含多種方法和訊息來源。此外,還需要對資料進行深入地分析和理解。

在特殊教育中,由學校心理學家、學校諮商師、普通和特殊教育工作者、言語病理學家、復健理療師和其他專業人員對測驗進行選擇、施測和解釋。如果測驗的使用者具有足夠的測量與評價方面的知識,將有助於提高根據測驗結果所做推論的效度。但是,這些不同背景的測驗使用者可能在測量專業知識和評量專業訓練方面存在很大差異。為了避免誤用測驗,這些測驗的使用者應該僅僅在自己所受的訓練和能力範圍之內來施測和解釋測驗。這點是很重要的。

州和聯邦的法律通常要求對那些可能需要接受特殊教育的學生進行摸底資格審查。審查或初步評價結果可能會反過來使得有作進一步深入評價的必要。然而,參加測驗的學生人數之多,特殊教育的費用之昂貴,以及時間限制之緊等,都對特殊教育評量實務造成壓力。通常這種評量需要在接手後有限的幾個工作日內完成。在大多數情況下,在一個兒童的研究小組提出建議之後,由學區提供所需特殊服務的費用。有時候,行管人員會傾向於使用那些便宜的省時的和現成的測驗計畫,而不是專業評價人員認為足以可靠的測驗方式。例如,有時管理人員會找某位請得到的,但卻缺乏足夠專業訓練的工作人員來評價學生。還可能存在回避或忽視那些花大錢才能解決的問題的情況。這些做法都可能會對測驗解釋的效度產生負面的影響。在特殊教育中,當某些人面臨不得不使用權宜之計來作評價的壓力時,在測驗使用中堅持專業標準就格外重要。學校人員以負責的態度使用測驗可以改進和促進全體學生的發展和學習機會。

MTT:有關教育評量的標準

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

查看其他Fandom

隨機Wiki