維基

WikiTeamWork

MTT:第三章

870個條目
在本站
增加新頁面
談話0 分享

信度與測量誤差編輯

廣義而言,測驗是設計用來了解受測者在某個確認領域裡的行為的一組任務,或是描述這些行為的一個量尺,或是在某個特定方面系統性地收集一個人的工作樣本。和測驗一起的是評分程序,它使得施測人員能對受測者的行為或工作樣本進行量化、評量和解釋。

信度(reliability)指的是當對由個人或群體重複進行施測時,所得結果的一致性程度。 以下要介紹的概念和步驟,可能對於部分讀者而言,是不太熟悉的,我們也並不指望以簡短的定義和解釋,就能夠使缺乏專業背景的讀者,精通這一方面的發展。若要達到更進一步的理解,讀者可能需要在測量理論方面做更多的進修。

行為測量的基本假定編輯

行為測量的有用之處,在於它先假設個人或群體的行為有一定程度的穩定性,儘管從同一個人身上連續獲得的行為樣本,極少在所有的方面是完全一樣的。一個人對不同試題在上一次測驗和下一次測驗的表現、成果和答案,即使在嚴格條件控制下,都會在品質或特徵方面有些波動,這些波動便會反映在分數上。

這種波動通常和測量目的無關,比如,一個受測者可能在這次測驗時比上一次要更努力、猜題運氣更好、更小心、沒那麼緊張,或身體更健康。一個受測者可能正好對測驗所考的那幾方面具有較多的知識、經驗、和理解。有些人可能在分數上沒有其他人波動大,但是沒有人是完全不變的。由於這種波動(有時是由於評分程序的緣故),一個人所得到的分數或是一個群體的平均分數,總會反映出一點點的測量誤差。

真實分數與測量誤差編輯

測驗分數中包含誤差因素的說法,意味著有一個假設的無誤差值,可用來表示受測者在施測時的特性。

在古典測驗理論(classic test theory)中,這個無誤差值稱作受測者在這個測驗或測量程序裡的「真實分數」(true score)。在概念上,它是假設受測者可以不受練習效應或疲倦效應的影響,對於同一試卷(或不同試卷)重複作答多次後,所得到的平均分數。用統計術語來說,真實分數是一個單獨的參數,它假設受測者的每個觀察分數(observe score)都能用來估計這個參數。

在評量信度的方法之一「概推度理論」(generalizability theory)裡,有一個可以與之相提並論的概念,就是受測者的「全域分數」(universe score)。而在「試題反應理論」(item response theory, IRT)裡,也有一個非常類似的概念,稱之為「能力(或特質)參數」(ability or trait parameter),儘管觀察分數和能力參數可以用不同的計量單位來表示。受測者在任何一種測驗的觀察分數和真實分數(或全域分數)之間的差異,都稱作「測量誤差」(measurement error)。

評量的靈活性與測量誤差編輯

到底標準化測驗或測量程序是通過哪些方面構成其定義的問題,近年來有重要進展。曾經有一陣子,大多數的標準化測驗的主要持性被定義為測驗材料對所有受測者保持一致、嚴格按照預定程序施測,和運用嚴密的評分規則,以保証評分的高度一致性。這些特性的確使得測驗「標準化」,也使得有意義的常模成為可能。

不過在就業和証照測驗方面,多年來使用的測量方法就相對地比較有彈性。個人化的口試、模擬資料、深入且全面性的個案報告,以及類似臨床的實況演習,現在已經屢見不鮮。 但在教育界,具有高度靈活性的測驗形式和施測程序的大型測驗,相對而言,就發展得比較晚。有些教育科目使用學生的學習歷程檔案(portfolio)來代替傳統的期末測驗分數。另一些科目則允許學生自由選題作答來表現他們的能力,還有的科目還允許受測者分成小組,以團體分工合作方式來完成作業。例如,一門自然科學的評量作業可能是要求一組高中生一起做研究,調查當地溪水中水質污染的來源,並寫出調查報告。

這類測驗在學科內容範圍的代表性,和一個人及小組分數的概推度等方面,引發一些複雜的問題。每次朝著測驗的靈活性邁進一步,就不可避免地增大了測量誤差。但是,在信度方面的犧牲,也有可能減少了在評量方案中,與構念無關變異量或是構念代表性低落的問題。

測量誤差的特點和涵義編輯

測量誤差通常被認為是隨機性的和不可預測的。它們在概念上有別於系統性誤差,雖然後者也可能影響個人或群體受測者的分數,但是有規律地,而不是隨機地影響。例如,一個系統誤差可能因為在難度上沒有適當等化的兩種試卷而引起。當一種試卷比另一種試卷容易些時,做難度較小試卷的受測者的平均分數,就會高於做難度較大的試卷的受測者的平均分數。儘管概推度理論允許把試卷的差異當作一種誤差來源,但這種差異在大多數量化和歸納誤差的方法中,是不被當作測量誤差的。

在不同程度上影響受測者個人分數的系統性誤差因素,可能不像那些影響群體分數的因素那樣容易被發覺或被忽略。例如,有些受測者臨場非常緊張,影響他們的認知能力的正常發揮,有些則是手眼協調不佳,畫卡作答速度慢,而使分數降低。

這種現象有時可能在某一個別受測者身上才能顯現出來,但統計上的矯正並不能解決問題。個別性的系統性誤差通常被認為不會影響信度。它多半被視為與構念無關變異量的來源之一,而可能削弱效度。

測量誤差的來源編輯

測量誤差的重要來源,大致可分為源自於受測者本身和受測者以外的兩類。受測者的動機、興趣、注意力、或臨時表現失常等方面的波動,明顯是可能導致受測者分數不穩定的內在因素。外在因素的例子有,不同考場受到不同程度的外界干擾、評分者的隨機主觀效應、以及評分者有不同標準所造成的差異。

任何具體因素的潛在可能性和重要性,根據當時測量結果獲取的情況,分數評分的情況和解釋分數的情況而定。像評分主觀性這樣的特定因素,可能在某些評量工作裡是重要的測量誤差來源,但在另一些評量工作上,如選擇題,卻又是微不足道的。

分數在從一個情形轉到另一情形時,有小量變化並不能被認為是誤差,因為這種變化可能部分是由於從初始測量到終極測量過程中,因外部介入、自身學習、或身心成熟的結果。一個受測者自身的不同在一定程度上表明外部介入效應或成長效應。在這種情況下,變化本身既構成關注現象。分數差異或變化於是成為信度所依賴的測量值。

測量誤差使得測量值的使用價值降低。它限制了測驗結果推廣到具體測量過程實務範圍以外的程度,因此它降低了人們將其用於其他測量上的信心。由於隨機測量誤差是不穩定且不可預測的,它們無法從觀察分數中去除掉;但是,它們的總量可以用下列幾種方法來加以歸納,以下將逐一討論這些方法。

信度資料的摘要編輯

測量誤差資料對於恰當的評鑑測量工具的用途事關重大。不論是一組具體的問題答案、一份工作樣本檔案、執行一個任務的表現,或是完整地製做一件作品,測量誤差都很重要。研究信度最理想的途徑是將整個測量過程獨立重複一遍。

然而大多數測驗情形僅僅只能對其做粗略地或部分的大概重複,研究測量誤差可能得從常規的施測程序中分離開來。無論如何,測驗編製者的目標之一,就是在實際情況允許時,儘量做好測量誤差的研究工作。這是任何測驗編製人員都不能免除的責任。

有關信度的關鍵資料包括確認誤差的主要來源,歸納這些誤差大小的統計數據資料,以及複本、評分人員、施測時間或其他相關方面的概推度程度。關鍵資料還要包括描述上述數據所針對的受測者群體,因為能準確反映一個群體的統計數據資料,不見得能正確代表另一個群體。例如,從一個具有全國代表性樣本的分數推導出的信度係數估計值或標準差,可能非常不同於從代表性單一的樣本(如某一性別、某一族裔或某一杜區)裡所得到數據。

信度的表示方法編輯

信度資料可以通過以下方式來表示:如變異量(variances)或測量誤差的標準差(standard deviations of measurement error)、一個或多個信度係數,或是試題反應理論的測驗訊息函數。

測量標準誤(standard error of measurement)是一個測量誤差的假設分布之標準差,它在評鑑一個給定的群體時通過某個具體的測驗或步驟產生。測量誤差的全部變異量實際上是真實測驗分數在不同程度上的加權均值。

每一個特定程度的變異量稱作「條件誤差變異量」(conditional error variance),它的平方根稱作「條件標準誤差」(conditionals standard error)。

傳統信度係數之分類編輯

傳統上信度可分成三大類; (l)在獨立施測環境下施行平行試卷而導出的係數(稱複本係數,alternative--form coefficients);

(2)同一群體在不同時間下舉行同一試卷所導出的係數(稱前測---再測係數,test-retest coefficients),

(3)基於分數之間關係的係數,這些分數導自於測驗內獨立的試題或一組試題,所有數據資料來自同一次測驗(稱內部一致性係數,internal consistency coefficients)。另外,當測驗評分過程對於評分者的判斷能力要求較高時,評分者之間的評分一致性指數通常也能夠以肯德爾和諧係數計算出來。

概推度係數編輯

依據概推度理論的進展,上述三類係數現在可能被視為是籠統的劃分法,亦即它們都是概推度係數(generalizability coefficients)的特殊 類別。像其他傳統的信度係數一樣,概推度係數的定義是,真實分數(或全域分數)的變異量與觀察分數變異量之比率。

和傳統的研究信度方法不同的是,概推度理論允許研究人員列舉並估計真實分數變異量、誤差變異量、和觀察分數變異量的各個組成部分。對這些變異量的估計通常是運用變異數分析法(ANOVA)來完成。

特別值得注意的是,對於整個誤差變異量中各組成部分分別的數字估算。這種估計的結果,使我們能夠檢查每一個誤差來源在整個測量過程中各自占有多大比例,概推度係數的方法也使得將係數估計應用到更大範圍內的潛在測量設計中成為可能。

測驗訊息函數編輯

試題反應理論(IRT)裡一個重要結果便是測驗訊息函數(test information function)。它有效地概括了測驗在甄別所考科目裡不同能力水平或特性的受測者的優劣程度。在試題反應理論的概念架構中,一個稱為「試題特性曲線」(item characteristic curve)或「試題反應函數」(item response function)的數學函數被用來作為模式,反映受測群體隨著所測量的能力或特徵逐步上升時,對一道試題答對的比例增加的情形。如果給定一個合適的數據資料庫的話,一種測驗裡每道試題的特性曲線參數就可估算出來。測驗訊息函數於是也可估算出來,這個函數可被視為以數學語言來表示在每個水準上的測量精確度。試題反應理論裡的精確度約等於古典測驗理論裡條件誤差變異量的倒數。

信度資料的解釋編輯

一般而言,信度係數在比較測驗或測量步驟方面,特別是那些產生不同評分單位的分數的步驟,最有用處。然而,這樣的比較鮮少直接了當,需要留有空間允許以下偏差:獲取係數所使用的受測者群體,使用的技術,反映在係數裡的誤差來源,被比較的測量手段的長度和施測時間。

概推度係數和包括在傳統信度分類裡的其他許多係數可能看上去可以互換,但其實有些係數傳遞的訊息與其他係數很很不同任何一類裡一個係數的測量誤差可能來源於一個有高度局限性的檢測角度,或是一個非常寬大的檢測角度,或是介於這兩個極端之間的角度。例如,某個信度係數可能反映評分者間評分不一致的誤差,但並不反映受測者一連串的分數表現或成果的偏差。又例如,某個信度係數僅只是反映某個測量手段裡答題的內部一致性,卻不考慮和受測者的健康、效率和動機有關的日常測量誤差。

然而,不要認為某些相隔數天或數周的複本係數和初次複測驗係數總比內部一致性係數要好。對許多測驗而言,內部一致性係數和複本係數並沒有顯著差別。當只有一種試卷存在時,複試可能導致前後兩次測驗之間的信度係數,由於該測驗的某些特別屬性或受測者回想起初次的答案而膨脹。還有,受測者在諸如心情或情緒等方面,可能在短時間內有明顯的差別。在施測這些構念時,產生信度估算值的多項測量值,應在所指特性保持穩定時取得。因此,對於具有這種特性的測驗,內部一致性係數就比較合適。

一旦測量步驟被採納,且測驗分數的解釋成為使用者的主要關注點時,測量標準誤差通常比信度係數更重要。需注意的是標準誤差也擁有形成信度係數特性的一些模棱兩可的東西,其估算值的質量也可能會擺動。當測驗分數的範圍拉得很開時,每一層次的測量精確度的訊息(即條件標準誤差),對於把全部分數層次合併成單一統計值,通常是很有價值的補充。就像信度係數和概推度係數一樣,標準誤差可能反映出多個誤差來源的變量,也可能只是幾個來源的變量。多數情形下,外延比較廣泛的標準誤差,比外延不那麼廣泛的誤差,要提供更多的訊息,但也有許多例外。

實際情形的限制,常使得產生理想標準誤差的研究難以進行。 由行為觀察或成果評鑑推演而來的測量結果對各種誤差因素尤為敏感。這些因素包括評鑑人員的偏見和自身特性、評分主觀性和受測者自身在分數或成果之間的誤差因素。概推度理論的方法非常適合用來檢查這類測量手段的分數的信度。與每個具體誤差來源和各來源間交叉效應相關的誤差方法估算值,表明受測者的分數可以推而廣之到一個評分人員群體和整個成果或分數的程度。

測驗分數的解釋可廣泛地分為「相對解釋」(relative interpretation)或「絕對解釋」(absolute interpretation)。相對解釋是用以說明某個個人或群體在一個參考群體裡位置。絕對解釋是將某人或某個群體的分數與己有定義的標準相對照。這些標準可能出自於一個或數個群體的實証數據資料,或完全建立在權威人士的判斷上。兩種解釋方式各自使用不同的標準誤差值。

測驗訊息函數可被視為代替傳統的測量精確度的指數,但必須注意它們之間的重要區別。在古典測驗理論裡,標準誤差可通過幾種不同的方法推導,它們可推導出相近,但不完全相同的結果。更重要的是,標準誤差和信度係數一樣可反映一個寬範圍的誤差因素組成或限制範圍內的誤差因素組成,全看信度研究的設計。從另一方面而言,測驗訊息函數受限於和內部一致性信度有關的測量誤差的嚴格界定。另外,試題反應理論裡提出的數個數學模式被入們所接受並作為試題特性曲線的基本形式。採用某個模式而不用另外的模式對推導出來的測驗訊息函數有實質性的效果。

精確度指數與分數量尺編輯

最後還有一個要考慮的方面對試題反應理論和古典理論之量化測驗分數的精度有重要意義。這就是:精確度指數依賴於它們所報告的分數量尺(scale)。一個以原始分數或試題反應理論的能力估算值表示的指數,可能和用衍生分數重新表示的同一指數所傳達的是極其不同的信度概念。這種對比可能也對條件標準誤差」效。

就基本分數量尺而言,精確度可能在某個分數段很高,而另一個分數段又很低。但當條件標準誤差重新以衍生分數為單位時(例如年級等同值或標準分數),相比較的精確度就會出現相當不同的趨勢。因此,兩種理論下的測量精確度極其依賴報告分數和解釋分數的量尺單位。

精確度與決策的重要性編輯

測量的精確度和一致性總是我們所祈求的。然而,對於精確性要求的提高,是根據分數所作決定和解釋的重要性的增加而提高。如果一個決策能夠有其他方面的訊息來佐證時,或一個錯誤的初步決定能夠很快糾正的話,分數具有一定信度就夠了。但如果一個分數將導致一個很難更改的決定時,例如,某個大專院校要錄取或拒絕某個受測者,或一個陪審團要決定一項重大的傷害罪成立時,對於精確度的要求就要高得多。

當測量的目的是起分類作用時,有些測量誤差比另一些測量誤差要更嚴重一些。對於一個位於切截分數之上或之下很多的受測者,或是離某個特別的學習計畫錄取資格標準相差或超過很遠的受測者而言,對其能力測量有錯差問題不大。但對於處在於切截分數邊界的受測者而言,他們的真實分數如測量錯了的話,那問題就嚴重了。用作量化信度的技術應該能夠反映出這些情形。報告關鍵數值區域的條件標準誤差可以做到這一點。

分類的一致性編輯

有些權威人士提出在「分數的信度」(reliability of scores)和「分類的相符合程度」(degree of agreement in classification)之間要有一個語義上的區分。前者專門用來指重複測量情形下的分數變化的分析。術語「分類一致性」(classification consistency)或「評分者之間的一致性」(inter-rater agreement),而不是「信度」,可專門用在分類一致性的討論中。採用這種說法可清楚表明任何規模的誤差的重要性是根據受測者分數距離切截分數的遠近而定。然而我們也要認識到,一致性的程度或受測者分類的相符性,是根據特定的切截分數以及它在分數分布中的位置而來的。

團體平均數與抽樣誤差編輯

當群體的平均分數被當作衡量計畫效益的標準時,它所含有的誤差因素是不同於受測者個人層面上的誤差因素。對於較大的群體而言,受測者個人的正向和負向測量誤差,在求整體平均數過程中幾乎都被相互抵銷掉了。但是,因作計畫評鑑需從一群人中進行隨機抽樣,而與隨機抽樣相關聯的抽樣誤差仍然存在。

在學校班級每年的平均分數或連續的客戶抽樣所得的有關服務滿意程度的平均分數裡,抽樣誤差可能成為某個計畫評鑑中的潛在誤差來源。儘管單個測驗分數的精確度很高,它還是可能成為在評量計畫的推論中重要的誤差來源。因此,當一個測量工具用作群體評判時,信度數據資料必須直接與具體所指的群體的分數解釋有關。

適合於單一分數的標準誤差並不適合於群體平均數精確度計算。更合適的統計值是觀察分數平均數的標準差。在測量誤差來源很多、很複雜時,概推度理論可以提供更好的誤差指數。 典型作法是,測驗編製者和發行者對收集和報告信度證據或測驗訊息函數,負有主要責任。測驗使用者必須擁有這些資料,以便能在所有可選擇的測量方法中做出最佳選擇,在正常情形下他們通常無法在測驗正式啟用前去作信度研究。

但在有些情形下,地方上的使用者必須負起部分責任,建檔保存測量精確度數據資料。例如,當測量的主要目的之一是對受測者在區域性群體內排名或按分數分類時,地方上的使用者有這個義務。

當使用者必須利用當地的評分者,而又對這些人進行過專門訓練,學習如何按照測驗編製者提供的閱卷規則進行閱卷時,使用者也有這個義務。在這種狀況下,地區因素可能會在實際上會影響誤差變異量和觀察分數變異量的總量。因此,分數信度可能和研製者報告的數值有明顯不同。

信度研究報告編輯

只是報告信度係數,而沒有多少篇幅用來說明估算係數的方法細節,推導係數時所用的受測者的特性,以及獲取數據當時的施測條件,算不上是合格的信度研究報告。如果只是泛泛談及一個測驗的結果「可靠」,或是「測驗非常可靠,可以作單一受測者的分數解釋」等說法,是很難或根本不能被接受的。

測驗必須由測驗使用者負責決定分數是否充分可信,以作為其預定用途和解釋。當然,測驗編製者和發行者也有義務提供充分的資料,以使得有數據支持的判斷成為可能。

使用多種方法的必要性編輯

如上所言,沒有一個單一的、最優的方法來量化信度,沒有一個單獨的指數能恰當地表達所有的相關事實,沒有一個單獨的研究方法在所有的情形下都是最佳選擇,且測驗編製者也不應局限於將某一種方法運用到任何一種測量手段上去。估算方法的選擇和對任何信度指數的最低接受程度,還須要仰賴專業判斷力。

信度對效度的影響編輯

雖然信度在這裡是作為測驗分數的一個獨立的特性來討論的,但必須承認分數信度的高低對於分數解釋的效度有影響。信度數據資料最終要証明的是由測驗反映出的行為的可重複性和結果分數的一致性。信度數據資料也與根據分數推導出來的學生分類的一致性有關。就分數反映隨機的測量誤差程度而言,它們在準確預測受測者的潛能方面,在詳細分析判斷受測者獲益方面,以及在做出定方面是有限的。信度相對較低的測驗分數,若和其他有關訊息綜合運用的話,有時對測驗使用者仍有一定的價值。但是測驗分數信度的高低,限制了它在所有目的上的效度。

有關信度與測量誤差的標準編輯

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

更多Wikia社區

隨機維基