維基

WikiTeamWork

MTT:有關量尺,常模及分數可比較性的標準

870個條目
在本站
增加新頁面
談話0 分享
  • 標準 4.1

測驗文件應清楚地解釋有關衍生分數量尺的意義或所含有的解釋以及它們的局限性。

說明:所有的量尺分數(原始分數和衍生分數)都可能會被曲解,若不是被人們做出超出現有資料領域以外的推論,就是在沒有足夠資料點的情形下往內推斷。年級當量(grade equivalent)分數和年齡當量(age equivalent)分數就在這方面遭到批評。其實百分等級和標準分數(standard score)量尺也同樣會被曲解。

如果一個"量尺的性質或其本身的用途是新創的"話,那麼就應該特別清楚地描述它的用法、解釋和局限性。尤其是那些會讓使用者感到陌生的量尺及其解釋,"以舉例來說明恰當和不恰當的解釋"會很有幫助。這項要求對於標準參照式解釋和常模參照式解釋的分數量尺都同樣有效。


  • 標準 4.2

測驗文件應清楚說明用來報告分數的量尺是如何建立的。

說明:當測驗編製者提供標準分數、常模或其他的分數解釋體系時,使用者應能從技術文件中判斷出衍生分數的品質和精確度。這項標準對於標準參照式和常模參照式的分數量尺都同樣有效。


  • 標準 4.3

如果有充分理由相信某個分數量尺可能會被誤解,那麼應該事先明確警告分數的使用者。

說明:測驗出版者和使用者可以通過以下方法來減少誤解。以年級當量分數為例,一定要在使用這種分數時,伴以說明,即年級當量分數並不代表每個學年或每個年級的進步標準;而且在標準化樣本中,有百分之五十的受測者的分數,按照定義會在該年級平均數以下。又例如,一個起初以某個參照群體之平均數來定義的分數量尺,當它一直保持固定,而受測者群體已經發生變化時,就再也不應該被理解為它代表參照群體的平均分數。


  • 標準 4.4

欲以原始分數作直接解釋時,它們的意義、應有的解釋、以及局限性,應像衍生分數量尺一樣描述和証明出來。

說明:在有些情形下,一個測驗的試題是從一個定義完整的內容領域的試題裡選出具有代表性的樣本。在測驗裡答對試題的比例,可視為在整個內容領域的試題裡可能會答對的比例的估計。在另外一些情況下,不同的解釋可能會附著於這個或那個切截分數以上或以下的分數上。測驗編製者應指出所推薦的任何解釋的佐証材料。


  • 標準 4.5

在使用常模時,應清楚描述其所指定的群體。這些群體應包括測驗使用者通常希望和他們自己的受測者比較的個人和次群體。

說明:清楚地描述建立常模的樣本是測驗編製者的責任,而恰當地使用常模則是測驗使用者的責任。使用者需要瞭解一個測驗能否適用於幾個不同的次群體的可能性,比如,關於不同性別、族裔、語言、殘障類型、年級或年齡組的綜合訊息或是常模,在有些情形下是有用的。允許使用這些有差異的常模及有關資料可能會受到法律的約束。

使用者也需要留意同一常模對於某些次群體或個人比對另外一些次群體或個人更合適的情形。以職業興趣量表為例,依據已經從事某一行業裡的人員所建立的常模,對於不在這一行的人而言就不合適。再例如,人格量表和男女關係調查表方面,若受測者的性別不同,其所使用的常模也應該不一樣。


  • 標準 4.6

建立常模的報告應準確地說明所採集樣本的群體、採樣步驟和參與者的比率、樣本是否有加權、施測日期以及描述性統計數值等。所提供的訊息應充足,以便使用者能夠判斷該常模是否適合用於來解釋當前受測者的分數。有關技術文件應注明常模本身的精確度。

說明:若常模要達到所意欲代表的群體,科學化的抽樣很重要。比如說,一個已在使用某種現行測驗的學校,志願參加建立常模的研究時,不應當認為它能夠代表一般的學校。 除抽樣步驟外,實際參加建立常模研究的比率也應報告,計算參加比率的方法也應清楚地記述下來。

具有全國代表性常模的建立,常會將樣本作加權處理。有加權的樣本比沒有加權的樣本更具有代表性。如果用加權方法,一定要將推導加權的步驟描述出來,且應給出加權前和加權後人口統計分布方面的代表性。

在建立常模的研究裡,學生在建立常模時做測驗的動機和參加正式測驗時的動機可能不同,在這種條件下收集到的資料應清楚地作成書面說明。同樣,如果建立常模研究裡,學生接受教學的經歷,系統地不同於正式測驗的學生的經歷時,這個事實也應記錄下來。

基於樣本所建立的常模不可能十分精確。儘管由於常模本身的不精確而引起的常模參照式分數解釋的不精確,相對於測量誤差而言,是很微小,但是常模精確度的估算值還是應該記錄在技術文件裡。例如,可以報告樣本設計的標準差。

有些測驗實務裡,以某一特定時期全體受測者分數所建立的常模,也會很有用。這種常模的特性應表現在其學生樣本應是長期運作的測驗計畫裡參加常規測驗的一部分。


  • 標準 4.7

如果區域性的受測群體與常模所指的群體有實質區別的話,而使用者報告的衍生分數是建立在已出版的常模上時,他有責任在解釋分數時描述這方面的區別。

說明:在招聘員工情形下,區域性受測群體的質量可能隨著徵聘人數、推薦步驟和市場供需狀況而波動。在這種情況下,不一定要記錄測驗是否使用得當,和分數解釋是否得當,也不用太擔心眼下的受測群體和建立常模的受測群體的特性有出入。


  • 標準 4.8

當常模用於表現受測者群體特性時,應清楚界定用於總結每個次群體分數的統計數值和這些統計數值所指的常模,且應運用這些數值和常模支持其原有的用途和解釋。

說明:群體平均值的分布不同於受測者個人分數。例如,如果只知道一個學校每個學生的百分比等級的話,我們不可能決定那個學校平均分數的百分比等級。有時為次群體平均值建立常模可能有用,但在次群體之間規模大小有實質性不同或者有些次群體比另外一些次群體受測者狀況要整齊得多時,建立次群體常模並解釋它們就成問題。一個常見並可以接受的解決辦法是報告中位次群體成員的百分比等級(如一個指定學校參加測驗的學生的中位百分比等級值)。


  • 標準 4.9

當原始分數或衍生分數的量尺是設計用作標準參照式分數解釋,並包括將受測者劃分入不同的類別裡時,應清楚解釋所做的分數解釋的理論根據。

說明:標準參照式分數解釋是以分數為基礎的描述,或是不以別的受測者分數為比較基準而作的推論。這類例子有:一份心理病理學的分析,一個指定的職位上即將就職的員工應具備的具體技能,或者一定分數以上的兒童應能成功運用的一組技能。這種解釋可能指分數的絕對程度或是一個受測者的分數所表現的答題能力。

如果測驗編製者推薦這種解釋,就應清楚表明它們的理論根據和實証數據。只要可能,就要盡努力獲取有關這種分數解釋的合理的證據。標準參照式和常模參照式的分數解釋並非相互排斥。在有合適的數據支持時,兩種方法都可以用來解釋分數,並不是非此即彼。


  • 標準 4.10

對由同一測驗的不同試卷得出的分數能交換使用的任何說法,都應提出清楚的理論根據和佐証。有些情形下,可提供分數等同的直接證據。在另一些情形下,證據可能得自於一個論証:即從理論上假設建立分數可比較性的程序的條件已充分滿足。具體所需的理論根據和證據將部分根據所說分數等同的應有的用途而定。

說明:對因某個目的而確定用不同試題或材料,或不同的測驗步驟而得到的分數可以互換使用時,要提出佐証。本條標準適用於像筆紙測驗(paper-and-pencil)的替換試卷或電腦化適性測驗裡對不同受測者準備的不同套題目這樣的情形。也適用不同方法的測驗(如紙筆測驗和電腦化測驗)或不同形式的測驗(如個別測驗相對團體測驗)當不同的試卷遵循同樣的步驟,然後又在統計意義上等化了的時候,最容易建立分數的等同。當做不到這樣時(比如在使用不同的測驗形式時),需另外提供證據以說明對其所打算運用的環境和目的而言分數等同的程度。

當所建議的推論或措施完全基於受測者所被劃分的類別之上時,應說明分類一致性的理論根據和證據。如果報告和使用的分數只是諸如及格/不及格這樣的分數時,那麼試卷與試卷在測量方面的等同對高於或低於切截分數很多的受測者來講沒有多大關係。

有些測驗輔助措施可能只是影響到與測驗要考的構念無關的一些方面。例於,使用大號字體印刷的試卷時,需保証學生分數的好壞並不在於學生能否看清以標準字體印刷的試卷的能力。在這種情形下,相對而言,不那麼嚴格的測驗編製或是專業判斷可能就足以支持分數等同的說法了。


  • 標準 4.11

當宣布試卷與試卷之間分數的等同是根據等化步驟完成時,應提供詳細的技術資料來說明分數等化的方法,說明據此建立的等化函數或其他的鏈接,並報告等化函數的準確性。

說明:根本著眼點是要表明等化後的兩個分數基本上是測量同一構念,兩者在信度及有條件測量標準誤差程度上沒有多少不同。技術資料應包括:分數等化的研究設計、使用的統計方法、受測者樣本大小和他們的特性,以及任何定錨測驗(anchor test)或是定錨試題(anchor items)。只要有可能,應估算並報告等化函數的標準誤差。

只要樣本數量許可,對於明確的受測者次群體,個別確定其等化函數可能會提供更多的訊息。另外,用兩份鏈接試卷分別做等同計算,也可以提供更多的訊息。在有些情形下,等化函數是用不同的統計方法獨立完成的。

比較不同方法得到的函數可幫助了解等化結果的合適性。如發現兩者之間有相當差距的話,應報告並解決這個問題。最有用的,還是以等化分數量尺的單位為基準,報告等化誤差。對有切截分數的測驗計畫而言,切截分數附近的等化誤差最為重要。至於審查等化函數誤差的深入程度,則要視測驗所預計的用途,和測驗分數對所做決定的重要性而定。


  • 標準 4.12

有些分數等化研究依賴於受測者次群體在統計數值方面的相霉,且這些受測者次群體的試卷又不同,這時應將確認統計數值等同的方法做詳細描述。

說明:有些分數等化的設計依賴於接受不同試卷受測者次群體的隨機相等(random equivalence)。一種確認這種相等的常用方法是將不同試卷有系統地棍合,然後將其隨機分布到不同的受測者次群體中去,這樣每個次群體差不多有同樣多的受測者收到每種試卷。


  • 標準 4.13

在使用定錨測驗設計的分數等化研究時,應報告定錨測驗的特性和它與所要等化的試卷的相似性,包括測驗內容細則和通過實証數據資料決定的分數之間的關係,如果是用定錨試題的話(如在某些以題目反應理論為基礎或經典測驗理論為基礎的分數算值研究中),應報告定錨試題的代表性和計量心理學方面的特性。

說明:不同的測驗或同一測驗的不同試卷可以用一部分共同的試題定錨。這些共同試題或是「內嵌」在兩種不同的測驗或試卷中,或是集中起來作為一個測驗分別和需定錨的測驗一起舉行。這些共同的試題被稱之為鏈接題(linking items)、定錨題或定錨測驗。使用這種方法時,最後等化的質量便極其依賴這些定錨測驗或定錨試題的合適性。


  • 標準 4.14

當用分數轉換或比較程序來鏈接並非完全平行的測驗的分數或兩個試卷的分數時,應清楚描述這些轉換或比較的做法、應有的解釋及其局限性。

說明:各式各樣的分數轉換或對照表(concordance tables)常被用來連接現行測驗修改前和修改後的版本,建立構念相似或不同的測驗之間分數的協調關係,或是為了什麼其他的目的。這樣的轉換是有用的,但也容易被誤解。應清楚描述這種分數轉換的局限性。


  • 標準 4.15

有時新的試卷是從一個現有的試卷中抽出一組試題而成,或是把現有試卷的試題重新編排而成,同時有充分理由相信這些試卷的分數可能受試題所在環境位置的因素影響。應提供證據以証實試卷間不同的分數轉換或分數鏈接沒有額外的常模畸變。

說明:有些測驗或測驗組合(battery)以完全版或抽查(survey)版或精簡版形式出版。在另外一些情形下,一個單獨的試卷可以因不同的試題排列組合而有數個版本。不應認為實施原版試卷而得出的測驗分數就能用來估算替換版本的常模或是建立分數轉換表。一定要小心謹慎,注意試題環境因素的可能性,包括速度測驗、測驗時間過長引起的疲乏等因素。很多情形下,合適的心理計量統計資料可能只能由獨立舉行這些替換試卷中得到。


  • 標準 4.16

如果測驗的內容細則從上一版連到下一版之間有變動時,這些變動應在測驗手冊裡指明出來,同時還須指出兩個版本間分數的轉換並非嚴格相霉。如果具體要求有重大改變時,要麼用一個新的量尺來報告分數,要麼清楚地向使用者申明修訂版的分數和原始版的分數。

說明:內容細則的重大更動常發生在測驗己使用了相當長一個時期後。這種更動常利用試題題型的進步,或是測驗內容的轉變以更能增加測驗分數的效度等機會,因此也是眾望所歸。但須認識到這種轉變會使得現在的分數不能和原版的分數嚴格交換使用。


  • 標準 4.17

打算長期保持一個通用量尺分數的測驗計畫,應時常檢查該量尺分數的穩定性。

說明:有些測驗計畫裡,題庫裡的試題不斷地新陳代謝。在另外一些情形下,一連串的試卷之間試題很少或簡直就沒有重複的。以上任何情形裡,如果用固定的量尺分數報告分數,一定要保証量尺分數的意義一直都是不變的。


  • 標準 4.18

如果出版單位提供用於分數解釋的常模,那麼只要測驗仍在使用,出版單位的責任是保証重新建立常模的頻率足夠高,不至於間斷準確、合適的分數解釋。

說明:測驗出版單位的責任是保証有最新常模現成可用,但測驗使用者的義務是避免使用過期的常模並努力保証準確、合適的測驗解釋。


  • 標準 4.19

當意向性分數解釋涉及到一個或更多的切截分數時,建立切截分數的理論根據和操作程序要滿楚地作成書面說明。

說明:有時只是為了挑選一定數目的受測者(如為填補現有空缺)而設定一個切截分數,雖然這時應把主要注意力放在法律規定上,但還是需詳細記錄切截分數是怎樣設定的。但在另外一些情形下,切截分數可能用來劃定受測者的類別(如診斷性分類、或及格/不及格分類),而事先又沒有一個定好的比例。這時,設立切截分數的方法必須清楚地記錄備案。

最理想的狀況,是在設計測驗時就把切截分數在測驗使用及解釋中的地位考慮進去。切截分數附近區域的分數量尺有恰當的精確度是正確劃分受測者類別的先決條件。如在設立切截分數時用到準則受測者群體(criterion groups)的分數分布數據資料,或分數相對於一個或多個準則變量(creteron variables)的數據資料時,應在技術文件裡綜述這些數據資料。如果是用專家仲裁方法確定切截分數,那麼所使用的方法要詳細記載。

無論這些仲哉是針對受測者,還是針對試題或測驗分數,或分數所預測的其他標準的分數,都應準確報告這些仲裁工作的實質。還應在文件中記載這些仲裁人員的資格及挑選方法、提供的培訓、對他們的判斷意見的含義作出的反饋,以及仲裁人員間任何交換意見的機會。只要適用,有關裁判的變量也應報告。如果可能,應該提供若設立切截分數的程序可以重來一遍時,切截分數可能變化的估算值。


  • 標準 4.20

若受測者類別的解釋意義在實質上截然不同,這樣的切截分數的設定應該建立在測驗分數及其相關效標的可靠實証資料的基礎上。

說明:在甄聘測驗中,儘管建立測驗分數和工作實作表現的關係很重要,測驗和效標之間的準確聯繫可能對切截分數的選擇沒有多大份量。然而,當不同的分數類別擁有完全不同的解釋時,測驗及其測量的效標之間的實証數據資料的關係則非同小可。

用於解釋診斷性測驗的切截分數可能建立在實証確定的效標群體分數分布的基礎上。對學業測驗或資格測驗(如執照測驗等),常常沒有現成可用且合適的效標群體(如成功或不成功的開業人員)然而,在合適和可行的情形下,最好還是能夠了解在相關的實際操作中測驗分數和工作表現的關係。注意,一個完全根據對內容的相關性和試題難度判斷而設計和落實周全的程序可能優於一個用不恰當的準則測量方法或有某些其他的缺陷的實証研究。在任何給定情況下,確定一種或數種方法合併使用的合適的切截分數設立方法都需要用到專業判斷。一般而言,人們不指望在緊臨切截分數以上或以下的效標變量的程度有明顯不同。但只要實際可行,應提供包括或靠近切截分數的分數域裡測驗和實際標準操作之關聯的證據。


  • 標準 4.21

當界定及格/不及格或受測者水平類別的切截分數是基於對試題的合適程度,或測驗分數的合適程度,或分數檔次的合適程度作直接判斷時,應將評分過程設計成能合理運用評分人員的知識與經驗。

說明:切截分數的界定有時是基於試題或測驗分數的合適程度(如作文)。或分數檔次的合適程度(如表現臨界線上受測者特性的程度)。用於推導出這樣仲裁的程序應該產生出合理並經得起推敲的標準,而且這些標準要能準確地反映裁判人員的價值觀和意圖。要求裁判人員考慮他們所熟悉的測驗表現種類,要求他們考慮有關這些表現的數量和質量方面已經清楚形成的概念,是達到這種仲裁最直截了當的途徑。

當受測者的回答產生於一個既非採樣於所要測量的內容領域又非模擬領域內知識的測驗時,評分人員遇到這些試題時就不太會有清楚的認識。這時要做一定的特別安排以保証評分人員在作判斷時有一個堅實的基礎。

對不同知識水平的內容描述爛熟於心,練習評分工作任務的困難程度並得到準確度方面的回饋、實際去把測驗做一遍、有關根據已定標準所確定不及格比例的回饋、以及其他形式的訊息資料,都可能有益於幫助裁判人員做出正確的和有原則的決定。

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

更多Wikia社區

隨機維基