維基

WikiTeamWork

MTT:有關信度與測量誤差的標準

870個條目
在本站
增加新頁面
談話0 分享
  • 標準 2.1

對於每個需要解釋的總分、分測驗分數、或合併的分數,與之相關的信度係數和測量標準誤的估計值,或測驗訊息函數,都應加以報告。

說明:當分測驗分數也需要解釋時,只報告總分的信度和測量標準誤的估計值是不夠的。測驗裡不同試卷之間總分的一致性(複本信度),今天和明天之間總分的一致性(重測信度)可能達到可接受的高度,但分測驗分數的信度卻可能低得不能接受。

對於所有需解釋的分數,使用者應有足夠詳盡的信度資料來判斷分數是否對預定的解釋有足夠準確的描述。從某個測驗組合(test battery)裡,常會選出某幾個分測驗合成一份測驗,並以此作預測或診斷。使用者需要有有關這種合成測驗的信度資訊。


  • 標準 2.2

在報告整體的或條件式的測量標準誤時,應該同時以原始分數(raw score)單位,和每個用作測驗解釋的衍生分數(derived score)單位來報告。

說明:最常用的衍生分數有標準分數(standard score)、年級或年齡當量、以及百分等級。因為常模參照測驗所得的原始分數極少被直接拿來解釋,所以衍生分數單位的標準誤對於一般測驗使用者而言會更有用。

受測者的真實分數、全域分數、或百分等級的信賴區間(confidence interval)和標準誤幾乎有同樣的作用,都可當作傳達信度資訊的另一種方式。在必須立即做出決定的情形下和確切訊息來源有限的情形下,測量標準誤的意義特別重要。


  • 標準 2.3

當測驗解釋強調受測者的兩個觀察分數之間的差異,或同一組受測者兩次測驗間平均分數的差異時,應該報告這種差異的信度資料,包括標準誤差在內。

說明:觀察分數差異可有許多不同用途。學力上的進步常作為對個人或群體作推論的對象。智力和學力測驗裡書面表達和實際操作能力的差異常用來診斷學生在認知障礙和學習困難方面的問題。心理診斷的推論也常來自於分測驗分數上的差異。成套的天資和學力測量套題、興趣量表、和人格測驗方法,常常用來確認和量化一個受測者相對的強項和弱項,或是用來作為能力特性程度的模型。當把解釋測驗分數的焦點集中在受測者的最高和最低點時,每對分數的差異的信度至關重要。


  • 標準 2.4

每個量化分數的精確度和一致性的方法都須清楚描述,並且用適合該方法的統計語言表達出來。為信度分析而挑選受測者的抽樣程序以及這些樣本的描述性統計數值也應報告。

說明:有關樣本挑選方法、樣本大小、平均值、標準誤差和人口統計等方面的資料能幫助測驗使用者作出判斷,審視所報告的數據資料可應用於他們自己的受測者群體的程度。

如果採用前後側方法或是複本方法的話,須表明兩次測驗之間的間隔時間。由於估算信度的方法很多,每種方法受不同測量誤差來源的影響,簡單說一句「某測驗的信度是0.90」是不能接受的。比較恰當的說法是「據報告,某測驗分數的信度係數為0.90,其數值是通過計算相繼舉行的甲卷和乙卷的相關係數得出的。數據資料來源基於400名10年級的學生,他們來自紐約州的五個中產階級居住的郊區學校,其性別與族裔的人數分別是……」


  • 標準 2.5

根據一種方法得出的信度係數或測量標準誤差與另一種方法導出的此類數值是不能交換解釋的,除非兩者的測量誤差的定義相等。

說明:不能把內部一致性係數、複本係數、重測係數、和概推度信度係數認為是等同的,因為每一種信度係數都可能會有它自己的測量誤差的定義。

經由試題反應理論導出的誤差方法,也不見得能和用其他方法導出的誤差變異量等同。測驗編製者應指明,報告的信度指數中反映出來的或被忽視掉的誤差來源。


  • 標準 2.6

如果信度係數因為分數全距或變異性的限制而有所調整時,必須報告調整的步驟,和調整前與調整後的信度係數。實際參加測驗的群體的標準差和整個目標群體的標準差,以及調整的理由,均須做說明。

說明:矯正可變性限制的作法實際上假定現有的受測者樣本不能完全代表測驗使用者期望將結果推廣到整個受測者群體的想法。在矯正的理由中需考慮到這種概推度的合適性。除非有足夠的證據,否則不應假設調整公式裡對所有分數級別均擁有同樣標準誤差。


  • 標準 2.7

當一種測驗裡的部分試題,根據測驗細則能假定測量部分獨立的能力或特質時,信度估算程序應體現測量手段的多因素特性。

說明:基本上,明顯具有多因素的總分應作為綜合分數處理。如果總分的內部一致性信度是以折半法(spilt-half)得到的話,這兩部分試題的內容和統計特性必須平行相等。應該以分層的阿爾法係數(stratified coefficient alpha)取代熟悉常用的未分層信度係數。


  • 標準 2.8

必須告訴測驗使用者,答題速度可能會對受測者分數的影響程度。

說明:當答題速度成為系統性變異量的一個重要來源時,一般不可能認定信度是會上升或下降。答題速度作為一個受測者的特性比測驗所設計測量的其他因素在某些情況下會更穩定,但在另一些情形下又更不穩定。

正因為速度對各種不同的估算值的效果有差別,其有關數據資料有助於解釋報告的係數。速度因素的重要性有時能從試題分析(item analysis)中推斷出來,還可能從監考人員在為信度分析舉行的測驗中觀察得到。受測者「最後試圖做的一道題」的分布曲線和測驗結尾部分空白題(即沒做的試題)的頻率雖然談不上有結論性,但也很能說明速度的問題。排開題目難度增加的因素不談,答對試題的比例下降意昧著有些受測者可能在隨機答題。

在電腦測驗情形下,超乎正常地快速答題,特別是在接近測驗完結部分,也可能意味著受測者在隨機答題。在文字題(包括短文題)情形下,答題的完整性可以說明時間限制對於前面的題目沒有什麼影響,但是對於後面的題目則影響非同小可。將速度因素引進一個原本是能力測驗中時,對於複本信度和重測信度可能會有明顯影響。由紙筆測驗轉換到電腦測驗也會影響到測驗速度。


  • 標準 2.9

當一個測驗是設計用來反映答題速度時,信度須在分別的計時測驗中,用複本和前後測的方法估算信度係數。

說明:我們已知在折半法裡,根據分別以奇數題號的分數和偶數題號的分數所計算的信度係數,在速度測驗中其估算值會過度膨脹,而阿爾法係數和其他內部一致性係數也會有偏差,儘管其偏差程度的大小不如折半法得出的係數那樣明顯。


  • 標準 2.10

當主觀判斷摻入測驗評分過程時,應報告評分者間的評分一致性和受測者本人的重複測驗一致性。建立在以下基礎上的不同的信度數據資料應清楚列出:(l)其不意評判同樣分數或成果的多個獨立評分者小組;(2)評判連續的分數或新成果的單獨閱卷小組;(3)評判連續分數或新成果的多個閱卷小組。

說明:受測者分數中每項活動之間的變化和評卷過程中評分人員之間的評分不一致性代表兩種獨立的測量誤差來源。研究信度的報告應清楚表明哪種誤差反映在數據資料裡。只要有可能,也應估算每個誤差來源的誤差變異量。概推度研究和變異成份分析對這方面尤其有用,它可分別提供受測者本人的活動之間、評分人員之間和受測者能力穩定範圍內不叮隋境之間的誤差變異量估算值。信度研究中閱卷入員的資格也應報告。

評分者之間或觀察員之間在受測者評分上的相符合程度對涉及微妙的歧視因素的評分和觀察數據資料特別重要。但必須注意的是,當評分者評鑑數個正向關聯的能力特性時,對其中某個能力的有利或不利的施測會使與之關聯的其他特性都會染上評分者的意見的色彩。進一步而言,評分者高度的評分一致性並不意味著受測者從一個活動到另一個活動間分數的扁度一致性。因此,評分者的本身個人評分一致性和評分者之間的一致性並不保証的受測者分數的高信度。


  • 標準 2.11

有一般可接受的理論上或實証上的理由認為信度係數、測量標準誤差、或測驗訊息函數對不同的受測者次群體有本質的不同,出版單位應盡快提供每個主要次群體測驗的信度數據資料。

說明:如測驗分數的解釋包含次群體的推論和總體的推論時,須分別提供次群體和總體的信度數據資料。專門面對某個具體文化背景的次群體或具有某種殘障的受測者的測驗使用者會從這類次群體的標準誤差估算中得到有益的訊息。有些受測者群體(如學前兒童)對測驗刺激(test stimuli)不會像年齡大一些的孩子那樣做出連貫的反應。


  • 標準 2.12

如果一個測驗被提議用於幾個年級或年齡組,同時每個年級或年齡緝都有常模,那麼應提供每個年級或年齡組受測者群體的信度係數,而不只是全部年級或所有年齡組綜合起來的倍度。

說明:信度係數建立在跨越好幾個年級受測者樣本基礎上或是建立在廣泛的年齡跨度受測者樣本基礎上且其平均分數隨年齡穩步上升時,其膨脹的信度會給人以假象。當一個測驗是打算用來在年齡或年級群體內甄別受測者時,應分別報告每個群體的信度係數和標準誤差。


  • 標準 2.13

如雇用當地的評分人員根據測驗編製單位規定的一般評分規則和原則進行閱卷,在有合適規模的樣本時,地方上的測驗主持單位須收集和報告本地的信度數據資料。

說明:例如,許多州的統一考試依賴地方上的人力資源進行作文、論文題、和實作測驗的評分。信度研究也可能會面對額外訓練評分者的需求,因此這部分也須融進追蹤計畫的一部分。


  • 標準 2.14

如果不能在幾個不同的分數級別假設條件測量標準誤差的恆久性,那麼每個分數級別的這個誤差都須報告。當用作挑選和將受測者分類的切截分數確定下來後,靠近每個切截分數上下分數測量的標準誤差也應報告。

說明:即使是典型用作信度研究的樣本含量也通常能估算條件測量誤差。如果假設標準誤差在一個相當廣泛的分數區間裡不變時,應該闡明作這個假設的理論根據。


  • 標準 2.15

當一個測驗或數個測量結果合併在一起用作分類決定時,將受測者分別按同一試卷或複本分類,並應提供兩次分類中同一受測者被劃分到同一類別中的比例的估算值。

說明:當一個測驗或綜合測驗用作分類決定時(例如,及格或不及格)切截分數上或切截分數附近分數的測量標準誤對這種決定的可信度意義重大。但是,除非對測量誤差和真實分數有事先假設,標準誤差不能轉換成為所期望的決定一致性的百分比。如果和測驗的保密性不衝突,且有合適的樣本的話,一般傾向於直接利用重複測量的方法來計算這個百分比。


  • 標準 2.16

有些施測情形下,受測者考的是不一樣的題目,這可通過從一個很大的題庫裡進行隨機選題達到,或是基於受測者對上一試題的回答正確與否或試題難度決定試題選擇。在這種情形下,作信度估算的較佳方法是在和正式測驗相同的條件下用連續舉行測驗的結果計算。

說明:對不同受測者變換不同試題在某些狀態下是可接受的一種步驟。如採用這種方法,信度數據資料應和此種方法相匹配。能力分數的標準誤差估算值可用試題反應理論的方法計算並作為適應性施測步驟的一部分作常規報告。然而,這些估算值並不是連續適應性測驗的一個充分的替代信度估算值,也不能回答測驗之間短期間隔的穩定性問題。

根據試題反應理論做的估算值是視試題參數估算值和根據理論而採用的答題模式兩方面的合適性情況而定的。基於適應性測驗複本的測驗舉行和分析而做的信度估算值和測量標準誤差反映出與整個測量程序有關的誤差。複本估算值對於施測步驟的適應性部分測量誤差的總量提供了一個獨立的檢查功能。


  • 標準 2.17

當一種測驗有長型(完整型)和短型(袖珍型)兩種版本的試卷時,應報告每型分數的信度數據資料,最好是用獨立舉行的兩型測驗版本的分數。

說明:有些測驗以「完整長度」(full-lengh)版本和,「調查版」(survey)或「簡式版」(short version)出版。許多時候應用斯皮爾曼--布朗公式(Spearman-Brown formula)可以從一種版本的數據資料中算出另一種版本的信度。

還有,一個標準化測驗的簡式版本常常是全長型版本中非隨機試題樣本。因此,簡短型版本的信度可能要比用斯皮爾曼--布朗公式從完整長度版本中推算的信度要高或者要低。


  • 標準 2.18

在允許對施測程序作顯著變動時,若有合適數量的樣本,應該提供在每種顯著變動程序下分別對分數所做的信度分析。

說明:為了照顧殘障(肢體障礙或智力障礙)的受測者,測驗出版單位可能會授權測驗主持者對紙筆測驗方式在施測程序裡的步驟和時間限制上作些修正。有些情形下,修正版本身可能會由出版單位提供。例如,錄音版測驗可能以小組形式或單獨受測者形式用於有閱讀障礙或注意力缺乏障礙的受測者。如果這種修正用於非殘障學生的話,那麼可由這些學生的表現,得知這些非標準化的施行措施,對測驗分數可能帶來的效果。


  • 標準 2.19

當次群體受測者的平均分數用作計畫評鑑時,參加測驗的次群體一般還是被認為是整個受測者群體的樣本(即使是所有可能參加測驗的人都接受了測量)在這種情形下,應報告次群體均值的標準誤差,因為它可反映受測者選擇的變化和測量誤差的變化。

說明:某個文學院的畢業班學生、某個社會服務機構的現有客戶、某個利益計畫裡性質相似的群體多半會建立縱向性意義的樣本。它事先假設其他條件不變,從同一群體裡今後可能重複出現與現有樣本可相比較的樣本。

對於計畫是否有效的結論的不確定因素來自於抽樣和測量誤差。因此,反映真實分數和測量誤差變量的平均觀察分數的標準誤差在這種狀況下能代表更實際的標準誤差。就是這個數值也有可能隨時間的延長而低估了次群體平均值的變化。在多數情形下,隨機選擇假設的不變條件並不成立。


  • 標準 2.20

當測量目的是針對次群體分數而不是個人分數時,常用的一個步驟是先將整個樣本的受測者分成很多個小樣本,然後每個小樣本的受測者只做整個測驗的一部分題目,最後再將各樣本組受測者和各部分試題聚合起來得出群體的分數。當以這種方法進行計畫評鑑或整個受測者群體描述時,做信度分析時應該考慮抽樣計畫設計的因素。

說明:這種測量設計又稱為矩陣抽樣(matrix sampling)。它可以在收集數據過程中減少受測者的測驗時間,並增加整個試題數量。這種方式提供的訊息和要求所有受測者回答所有試題的方法獲得同樣的訊息。訊息係數必須與受測者和試題的選擇計劃相符。

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

更多Wikia社區

隨機維基