維基

WikiTeamWork

MTT:第二章

870個條目
在本站
增加新頁面
談話0 分享

效度與效度驗證

效度(validity)是指當測驗用於某一特定目的時,對於支持測驗分數解釋的那些證據和理論所做的整體評鑑。也因此,效度是測驗編製和測驗評鑑中最重要的考慮項目。效度驗證(validation)的過程,是為了要能正確解釋測驗分數,而累積証據,以提供一合理的科學基礎。因此,是針對特定用途的測驗分數解釋需要被評鑑,而非測驗本身需要被評鑑。因此,當測驗分數以多種方式被使用或解釋時,每一種解釋都得進行效度驗證。

效度驗證與構念編輯

效度驗證在邏輯上始於一個應該如何明確敘述對測驗分數的解釋,同時伴有為什麼這種解釋和測驗的指定用途相關聯的解釋。這裡指定的解釋是指測驗所要測量的構念(construct)或概念。數學成就、電腦技術員的表現、憂鬱,和自尊心都是構念的例子。為了幫助測驗編製,人們透過細緻描述一個構念的外延和內涵,並闡述它的各個層面,來體現它所應被理解的各方面。這種深入且細緻的描述,為測驗提供了一個概念架構,且為其所評量的知識、技能、能力、過程、或特性勾畫出一個輪廓。這個架構表明該構念的表現方式如何不同於其他構念,以及它應如何和其他變項相關聯。

構念的形成編輯

這個概念架構,部分是因測驗分數將做何種用途而形成。比如說,一個數學測驗可能用來將一名學生安排到某個適合該學生的課程中,或用來作為頒發高中畢業證書,或用來作為大學錄取與否的參考。每一種用途都意味著對這個數學測驗分數的不同解釋;或是這個學生會從某個特別的課程中受益,或是已經精熟了某些指定的課程,或是有可能完成大學程度的教育。同樣的,一個自尊心方面的測驗可能用於心理諮商,也可能用於招聘決定,還可能用於從基本的科學角度勾描自尊心的構念。每一個可能的用途就構成特定的概念架構和測驗分數的有限的解釋方式。它同時也包含了測驗編製和評鑑方面的應注意事項。

我們可以把效度驗證作為是追尋一個科學上合乎邏輯的效度論證來看,它為測驗分數所應有的解釋,和測驗分數及其所建議的用途提供相關性佐證。它的概念架構主要針對為了評鑑根據施測用途而提出的解釋所可能收集的各種證據。隨著效度驗證的進展,測驗分數的意義的證據也隨之出來。根據作為測驗基礎的概念架構,甚至根據測驗所考的構念,人們可能需要對該項測驗進行修改。

由於測驗的種類繁多、情形各異,所以某種效度證據在某種情況下自然就特別重要,反過來其他的證據就不那麼重要了。對於在每一種情形下,確定到底哪一種證據對效度驗證是否重要,可以通過設定一套前提來解決。這些前提將有助於施測的特定目的所應有的解釋。例如,當一個數學測驗被用來評量學生是否夠資格選修更高級的數學課程時,就很有可能需要具備下列前提的證據:

  1. 某些技巧是學習這更高級課程的先決條件;
  2. 測驗的內容領域包含了這些先決條件技巧;
  3. 測驗分數可以用一些相關的試題加以推論;
  4. 測驗分數不會過度受到附屬變項(比如書寫能力)的影響;
  5. 學生在該高級數學課的成功與否應能有效地評量出來;
  6. 測驗分數好的學生應比分數差的學生更能學好這門高級課程

這類前提的例子在其他施測情形下可能包括:在一個「一般性焦慮」分數高的受測者在不同狀態下都會有高焦慮;孩子在智力量表上的分數與其學業表現有密切關聯;在神經心理測驗上得到的某種分數組型代表某種腦損傷。效度驗證的過程就包括這些前提的形成和收集證據以證明它們的合理性。

我們可以考慮通過設定與建議性的分數解釋之對立假設來確定這個解釋的前提。考慮與測驗相關的各方面的不同看法、在類似測驗或脈絡上的經驗、在測驗所建議的用途的預期的結果等也是很有用的。考量一個測驗在測量它所主張要測量的構念上是過少或過多,常可產生合理的對立假設。這類問題被稱為是「構念的代表性低落」(construct underrepresentativeness)和「與構念無關的變異量」(construct irrelevant variance)。

構念的代表性低落編輯

「構念的代表性低落」是指一個測驗抓不住構念要點的程度。它是因為該測驗沒有適當地選擇某些測驗內容,或採用某些心理活動程序,或引導出測量該構念所需要的反應所造成的。就拿一個測量小學生閱讀理解能力的測驗來說,它可能由於閱讀的短文在題材上沒有足夠的變化,或忽略了某一種常見的閱讀材料,而使其不能完全代表它所要測量的構念。再舉一個例子,一個對於焦慮的測量可能只測量受測者在生理上的反應,而沒有包含情感、認知、或情境方面的成分。

與構念無關的變異量編輯

「與構念無關的變異量」是指測驗包含了與所測構念無關的材料的多寡。測驗分數多多少少會受到構念以外因素的系統性的影響。以語文測驗為例,與構念無關因素可能包括:對於測驗內容上的情緒反應、對於閱讀材料的熟悉程度、或是回答問題時所需要的寫作技巧等。根據構念的具體定義,詞彙知識或閱讀速度也可能是無關因素。對於焦慮測驗而言,低報焦慮程度的反應偏差(response bias),也可能被認為是「與構念無關變異量」的一個來源。

幾乎所有的測驗都會出現這樣的狀況,那就是,使用者以為應該出現在測驗裡的內容卻沒有出現,而被使用者認為不適當的內容,卻硬是出現在測驗中。效度驗證工作要包括特別注意因為構念的不適當代表性,所導致的分數意義扭曲的現象,以及一些測量方面的問題,比如,測驗的形式、施測條件、語言水平所造成的材料上的限制或測驗分數解釋上的限制。也就是說,效度驗證的過程可能導致測驗本身,或測驗所測構念的定義的修改,或是兩者都有。

當幫助解釋測驗分數的前提確定後,我們便可通過研究實証證據(evidence)、查閱有關的文獻或進行邏輯分析,來衡量每個前提的效度驗證。數據資料證據可以包括區域性的、測驗將使用的實際情境的、和其他類似的測驗應用場合的。利用類似測驗和測驗環境中現有的證據能夠加強效度論證,特別是當眼下的數據資料很有限時。

由於效度論證一般不止一個命題,支持一個命題的有力證據並不會削弱對支持其他命題的證據的需求。例如,在聘用員工時,假如預測用測驗分數和效標(criterion)有高度相關,但是,若沒有把效標的實際意義和合適性考慮進去的話,它還是不能為該測驗用於挑選人員的有效程度提供充分證據的。我們需要借助於專業判斷去決定證據的具體形式,使其能最大限度地幫助人們解釋和使用測驗。就像所有的科學研究一樣,證據的品質至關重要,對於某個命題的幾行站得住腳的證據,抵得上無數行有問題的證據。

效度驗證是測驗編製者和使用者的共同責任,測驗編製者要負責提供正當測驗用途的有關證據和理論根據,而測驗使用者的最大責任是鑑定一個證據在測驗將使用特定場合裡的合理性。當測驗的用途有別於編製者的原意時,測驗使用者更有責任去做效度驗證工作。這方面的標準是針對效度驗證程序而言,有關人員據此分攤義務。值得注意的是,其他研究人員對於測驗分數的意義所做的有關研究發現,也是對該測驗的重要貢獻。

效度證據的來源編輯

下面幾小節將介紹各種效度證據的來源,它們可用來評鑑有特定目的的測驗分數的所建議解釋。這些證據來源只可說明效度的不同方面,但不代表不同類型的效度。效度是一個單一概念,它指所收集的證據能幫助測驗分數所希望說明的測驗目的的程度。和1985年版的《標準》一樣,本版對效度的解釋指效度證據的各種類型,而不是效度的不同類型。為強調這個本質性區別,下面各節將不再用傳統的專用的術語的定義(如內容效度,預測效度等)。書末的詞彙部分附有傳統的術語的定義,並詳細說明傳統用法與現代用法的不同。

來自測驗內容的證據編輯

主要的效度證據可透過分析這一測驗的內容和它打算測量的構念間的一致性而獲得。測驗內容是指測驗上的主題、用字、題型、工作及問題,以及施測和計分程序的指導原則。基於測驗內容的證據包括對於測驗內容在這測驗所界定的領域上和所提議的分數解釋上的關聯性和代表性所做的邏輯與實證的分析。

測驗編製者常常是從內容範疇(content domain)的雙向細目表著手。內容雙向細目表(content specifications)會對內容有詳細的描述,通常是依內容的領域和題型加以分類。基於測驗內容的證據也可以來自專家對於測驗各部份和該構念之間關聯性的判斷。例如,在編製一個執照測驗時,這指定職業的主要作業層面可以詳細規定出來,然後再請該職業的專家們將測驗試題分派到根據這些作業層面而界定的各內容類目中。他們,或是其他夠資格的專家們,就可以來評鑑這些備選試題的代表性。有時候根據內容雙向細目表,我們可以建立一套規則或演算法,來系統地選擇或編寫不同內容層面的試題。

有些測驗是建立在系統的行為觀察的基礎上。例如,一個職能範圍工作表的製作可通過對這個職位的行為進行觀察得出,加上該行業專家的判斷。專家的判斷可用於評量各項職責的相關重要性、關鍵性和頻繁性。工作職責抽樣測驗便可從幾項得分較高的職責特性中利用隨機分層抽樣的方法構成,然後在工作場所之外的標準化條件下舉行。

某一特定內容領域(content domain)的適當性與根據測驗分數做出的推論有關。因此,當考慮將一個現成的測驗用於超出它原意的場合時,鑑定原來的內容領域是否合乎新的用途就特別重要。比如,在教育計畫的評鑑中,測驗可能有分寸地涵蓋教學大綱中很少提及的內容和直接施用於班級教學得內容。決策者可根據學生測驗分數來鑑定學生在教過和沒有教過的學習內容方面所達到的程度。另一方面,當測驗用來檢測學生對於所教的知識的掌握程度而決定其是否升級或畢業時,闡明內容領域的架構應該是適當地限制在學生有機會接受的知識範圍內。

有關測驗內容的證據可部分被用來說明對不同群體受測者的分數不同意義或不同解釋。需要特別注意的是,「構念的代表性低落」和「與構念無關的變異量」兩方面的因素可能使一個或多個受測者群體不公平地處於優勢或劣勢地位。由各方專家對於構念和測驗內容領域所做的認真審查,可能會找出與測驗內容無關,但卻使測驗對受測者而言變得相對困難(或簡單)的可能因素來源,而做更進一步的研究。

來自解題過程的證據編輯

解題過程在理論和實證上的分析可提供構念和學生的具體臨場表現的相輔性的關係的證據。舉例來說,如果一個測驗打算評量數學推理,判斷受測者是真正根據試題所給的材料還是遵循已知標準規則進行推理就變得非常重要。再例如,一個人在外向性和內向性測驗的分數不應當受社會規範太大的影響。

基於解題過程的證據,一般來自對具體試題解答的分析。詢問受測者的演講測落或具體試題的回答常可得到豐富構念定義的證據。例如,通過書面的草稿或電腦上的修改稿,保留對寫試題過程的監視紀錄也能提供寫作過程的證據。對測驗的其他表現,如眼球的轉動或解題次數,也可能與某些構念有關。對於解題表現過程的推斷,可以經由分析測驗各部分之間的關係和測驗與其他變項的關係來展現。其結果可顯現解題過程中受測者之間大的區別並導致對某些測驗形式的重新考慮。

某些測驗過程的證據有助於回答相關受測者群體在測驗分數的意義與解釋方面不同的問題。與構念無關的或附帶的一些能力可能在不同程度上影響不同群體受測者的表現。對他們的解題過程所做的研究有助於確定這些影響的程度。

對於解題過程的研究不只限於受測者。評量活動也常常依賴觀察員和裁判來紀錄和鑑定受測者的表現或成果。在這些情形下,相關的效度證據包括評分員或考官的反應過程和對測驗分數的所建議解釋相符合的程度。比如,如果考官應該用一套特別的標準去衡量受測者的表現,那麼了解他們是否真正選用了合適的標準,而沒有受與所建議解釋無關因素的影響就非常重要。因此,效度驗證便可能包括實証研究,看評分員怎樣紀錄和鑑定數據資料,同時加上這些過程對所建議解釋或構念定義的合適性分析。

來自內部結構的證據編輯

對於測驗內部結構的分析,可以表明試題和試卷各部分與所考構念的關係的密切程度,而測驗分數的所建議解釋,便是建立在這些構念的基礎上。一個測驗的概念架構可能是某種行為的某一方面,也可能是由幾個部分組成。每個組成部分本身是單一的,但互相之間又截然不同。例如,一個健康問卷可能測量生理健康和情緒健康方面的不適狀況。試題之間的關係證明概念架構之假設的程度是與效度有關的。

要做哪一類的分析和對它們的解釋,是要根據這測驗將如何使用而定。比如說,假如某一測驗假定由一系列難度逐漸遞增的各部分所組成的話,人們應該提供作答反應組型(response pattern)與該假定相吻合的證據。一個具有單維度(unidimensionality)假定的理論,應該有能表明試題同質性(item homogeneity)的證據來支持。在這種情況下,試題間的相關也顯示了分數的信度估計指數,但是這個指數並不適用於內部結構複雜的測驗。

有些探討測驗內部結構的設計,可以顯現出某些試題對於明顯不同群體的受測者是否有不同的作用。所謂差異性試題作用(differential item functioning)的情形,就是在具備同等整體能力或在某方面處在相同位置的不同群體受測者,對於同一試題有規律地給出不同的答案。我們將在第三章和第七章深入討論這個問題。然而,差異性試題作用也不總是壞事。部分試題共同具有某一特性(如具體內容、題目的表達方式等)可能對分數相近的不同群體受測者有不同作用。還表示存在多種難度,還可能和測驗架構一致,也可能不一致。

來自與其他變項關係的證據編輯

分析測驗分數和測驗外在變量之間的關係是效度證據的另一重要來源。潛在的外在變量包括對測驗所期許的某些標準的測量以及和其他假設測量同樣構念的測驗關係。分數以外的測量指標(如操作標準)常會用於求職測驗的場合。如果某個測驗的所建議解釋需要佐證時,當測驗的所建議用途的理論會指明群體差別是否應列入考慮因素之列時,類別變量(包括群體隸屬變量)就變得有關係了。基於和其他變量關係的證據敘述了這些變量的關係和測驗所建議解釋之構念相一致的程度。

聚歛和區辨證據編輯

測驗分數和其他用來評量類似構念的量數之間的相關提供了聚斂性證據(convergent evidence)。反之,測驗分數和用來評量不同構念的量數之間的相關提供了區辨性證據(discriminate evidence)。例如,在某些理論架構內,一份選擇題的語文試卷的分數應該是和用其他測驗是語文分數的手段(如作文)的分數接近(聚斂性證據)。反之,選擇題試卷的分數和另外某些測驗數據資料(如果邏輯推理)應沒什麼相關(區辨性證據)。測量同一構念的不同方法之間的相關特別有助於突出和闡述分數的意義和解釋。

和其他變量的相關性的證據可以包括實驗性以及相關性兩方面。例如,可將實驗設計成研究一個焦慮的分數是否會因為告知即將接受重要考試而明顯提升,或者在一學業成就測驗的分數是否能有效區辨有上課的和沒有上課的群體。如果測驗分數會因為「補習」(coaching)而上升的話,會對效度有不良影響,那就應該研究接受補習的和未接受補習的團體在分數表現上是否不同。

測驗和效標的關係編輯

說明測驗分數與有關的效標(criterion)之間關係的證據,可以用不同的方式表達出來,但是根本問題不變,那就是測驗分數對於效標的預測到底有多準確?而所需要的準確程度,則視測驗將作何種用途而定。

效標變項是由測驗使用者根據他們認為致關重要的某些特性或結果而決定。而使用者可以是學校主管,公司經理或任何客戶。選擇效標和獲取效標分數的測量程序非常重要。測驗和效標關係的研究的價值,取決於它們之間的相關性、信度、以及建立具體施測實務裡效標的解釋的效度。

預測與同時設計編輯

傳統上,用來評鑑測驗和效標的關係時,有兩種不同的設計,即預測性設計(predictive design)和同時性設計(concurrent design)。「預測性設計」研究現有的測驗分數能夠多麼準確地預測將來的效標分數。「同時設計」研究預測因子和效標在同一時間的關聯。當我們真正考慮研究預測性時,如在教育或招聘或制定復健計畫情形下,預測性研究可保持實際狀況的短時的區別和其他特性。同步證據避免短時改變,它對心理判斷分析測驗或探討某些特定構念的另類測量特別有用。一般而言,研究策略的選擇常借鑒於以前的證據,看預測性研究和同步研究在被研究領域內是互得相同或不同的結果的程度。

篩選與安置上的應用編輯

測驗分數有時候用來安置員工做不同的工作,例如同一單位內不同的工作職位,這樣其實對單位和個人都有益。在這種場合下,我們需要有證據來判斷一種測驗比另一種測驗,(或一種安排比另一種安排)是否更適合員工的分類或職位分派。分類的決定借助於證據,它表明測驗分類和效標之間的關係因安排不同而不同。也有這樣的可能,那就是測驗分數對於不同的教育課程或工作職位極佳的預測性,卻沒有提供必要的訊息以使人們對不同的職位分配或安排作有效地比較。一般而言,選拔或安置員工的決定規則也會受徵聘的人數或另類安置種類的人數而影響。

預測效度可能因群體而異編輯

與其它變項的關係的證據也被用來研究群體間預測差異的問題。例如,測驗分數和效標變項的關係因不同群體而異,這意味著這些分數對不同群體有不同的意義。這些差異可能是構念的代表性低落,或是與構念無關的成分所造成;但也可能意味著效標對不同群體有不同的意義。測驗分數和效標關係的差異也可能是源自於測量誤差,特別是當群體的平均數不同的時候,因此,這些差異並非就一定表示分數的意義不同(見第七章)。

效度概化編輯

在教育和雇用情境裡的一個重要問題是,建立在測驗和效標關係基礎上的效度證據能夠類推到新情境中,而無須對這新情境再做進一步的效度研究的程度有多大。當一個測驗在不同時間或不同地點用來預測相同或相似的檢測時(如一個指定工作的表現),我們不難發現所觀察到的測驗和效標之間的關係變化幅度之大。這種新現象以往被認為需要作區域性的效度驗證研究。

但是近年來整合分析(meta-analysis)方面的研究表明在某些區域,這種可變性可能多半是統計方面的原因,譬如抽樣的波動和測驗分數範圍的效度研究以及效標的信度變化。當將以上影響和其他影響列入考慮因素後,效度係數裡餘下的可能性就很小了。因此,以前在相似情境下的統計數據資料對於估量新情境下的測驗和效標的關係是有用的。這種實務活動就被認為是效度概化(validity generalization)研究。

在某些情形下使用效度概化比較能站得住腳。譬如當整合分析數據資料變很大時,整合分析數據資料可能洽當地代表人們希望概化的那種情境,同時對統計偏差的矯正使得效度證據的結果清楚且一致。在這種情形下,區域性研究的訊息價值就非常有限了。在另外一些情形下,對概化所要求的推論可能有較大的距離。

整合分析的數據資料也可能很小,結果也可能不一致,或者新情境包括許多和整合分析數據資料截然不同的其他特性。這時,特定情境效度證據相對而言更有訊息價值。

只管效度概化的研究表明一個單獨的區域性效度研究結果可能很不精確。但如果各方面工作仔細小心,加上合適的樣本大小,一個單獨的研究還是可以提供充分證據以支持某種測驗在新情境裡的應用。這裡強調了認真比較區域性和整合分析性研究的訊息的重要性。

在做效度概化研究時,所包括的以前人的研究根據情境層面會有所變化。一些主要層面為:

  1. 不同的預測因子構念的測量方法,
  2. 相關的工作或教學大綱的種類,
  3. 所使用的測驗準則值的種類,
  4. 受測者的種類,
  5. 研究完成時的時間。

任何一個效度概化研究中,上述各項的任何一項或數項層面都有可能波動。研究的一各主要目標是從實際上確定這些層面的波動影響所求得的測驗和效標之間相關係數的程度。

預測性或同步性效度概化證據可用於新情境中的程度在很大程度上是個總累研究的函數。雖然概化證據常可用來支持效度用於新情境下的說法,但可用數據資料的程度限制了該說法適用的程度。

以上的討論通常集中在用累加的數據資料來估計預測因子和效標的關係。但整合分析技術也可用來綜合人們想從某特定情境的測驗分數中做出其他有關推論的數據資料的形式,比如,補習效應和因調整考場條件以適應殘障人士需要而引起的效應。

來自測驗使用後之效果的證據編輯

近年來受到關注的一個議題是將有意和無意的測驗後果引進到效度概念中來。有關後果的證據可能影響效度決定。但重要的事,我們需將與效度直接有關的證據和可能影響社會政策的決定但又在效度領域之外的證據區分開來。

有時,測驗對於可確認的不同群體產生不同的後果。這種情形再區分效度問題和社會政策問題時變得格外重要。例如,有人關注到不同群體因分數不同在選拔和晉級,安插兒童進特殊教育班,以及減縮學校的教學大綱以剔除不屬統考的學習目標方面所產生的效度。雖然有關施測後果的訊息可能會影響施測用途,但後果本身並不有損於對原有測驗解釋的效度根據施測後果所作的的有效或無效度的判斷反而依賴於對這些後果根源的進一步探索。

就拿因一個招聘測驗的後果而使得不同群體的成員的錄用錄不同舉例而言吧,如果這個差異比例是因為測驗所考技能的分佈不均,而這些技能又確實是在工作表現中作用重大,那麼,群體分數不同本身對所要做的推論並不意味著缺乏效度。但是,如果測驗所測技能的不同結果和工作表現無關(如;拿一個高難度的語文測驗用於測量只需基本閱讀能力的工作),或者這個不同是由於測驗本身對某些受測者的特性有和所考構念無關的下意識的敏感,那麼,即使測驗分數和工作表現有正向關聯,效度都可能成問題。

因此,當後果證據可以追溯到無效度(invalidity)根源時(如構念代表性缺乏或構念無關因素變異量),它可直接和效度掛鉤,後果證據不能追溯到非效度根源,但又在工作表中確有差別時,它對政策決定有關鍵作用,但超出了效度的技術評定領域。

通常人們舉行測驗是指望測驗分數會給人們帶來利益。這些利益包括:選擇有效的治療策略,安排員工到合適的職位上,防止不合格人員進入某個專業領域,或改進教學實務。效度驗證的一個根本目的是表明這些具體的利益是否能夠實現。因此,當測驗被用來作人員安排決定時,效度驗證應有這樣的證據和支持,即另類安排會對個人或團體都有各自的好處。在招聘測驗情形下,如果測驗出版商宣稱用他們的測驗可降低員工訓練成本、提高工作效率、或其他益處的話,那麼效度驗證就須要有這方面的支持。

有些關於後果的說法超出測驗分數本身的直接用途。例如,教育方面的測驗之所以被倡導是它們可能會提高學習的的積極性或鼓勵班級教學改革,使教師對學習結果負責。這種說法主要是作為推進施測的理論根據,直接檢查施測後果則需要假定更大的重要性。此種情形下的效度驗證過程應有設想好的,通過測驗可實現益處的證據來支持。

效度證據的整合編輯

一個做得好的效度證據會將各種證據融為一體,而使現有的證據和理論能夠支持對特定用途的測驗分數的預期性解釋。它包括了最近和早期研究中所報告的證據。效度證據可能表明有精確定義構念的必要性,也可能提示施測過程中測驗或其他方面需要修訂,或做進一步研究的部分。

結語編輯

對於測驗分數的預期解釋的效度最終仰賴於所有可能得到的有關測驗系統的技術品質的證據。這些證據包括:嚴密的測驗編製、適當的分數信度、適當的施測和評分;精確的分數量尺化、等化、和通過標準的設定;以及對所有受測者的公平性。在後續章節中,會對這幾方面有更詳盡的描述。

有關效度與效度驗證的標準編輯

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

更多Wikia社區

隨機維基