FANDOM


標準 3.1編輯
    • 測驗和施測計畫應建立在正確的科學基礎上。測驗編製者和出版商要編輯記錄測驗編製的合適証據。**
標準 3.2編輯
    • 測驗目的、內容領域的定義、和測驗內容細則應該講得非常清楚,這樣人們才能夠判斷所定義的內容範圍對於測驗的目的是否合適,試題之間的關係對於它們試圖代表的範疇內各方面的知識點是否相吻合。**

說明:測驗分數解釋的合適性和合用性依賴於測驗目的和測驗所要代表的內容領域在定義和闡述上的嚴密性。內容領域定義應該充分、詳盡、準確地表明有哪些方面的知識、技能、過程、態度、價值、情緒或行為是包括在測驗中,哪些又不包括在測驗內。清楚的描述將有助於審查人員和其他有關人員對於已經定義的內容領域和測驗題目之間的一致性作出正確的判斷。

標準 3.3編輯
    • 測驗內容細則及其研發的理論依據和過程應該作成書面說明。測驗內容細則應對測驗內容、建議的試題數目、題型、試題的心理計量特性上的要求、以及各部分試題的安排等作出界定。內容細則中還需要說明測驗的時間限制、對受測者的指示、施測和評分的步驟,以及其他有關事項。**

說明:專業判斷在測驗內容細則的制訂中起主要作用。制定內容細則的具體步驟根據測驗目的而定。例如,在研發執照或証書測驗時,對實際開業人員知識能力的分析和工作內容的分析,常為界定測驗內容細則的範圍提供了實務的基礎。而工作內容分析為雇用測驗提供了基礎。對於一門課結束時的學業成就測驗而言,測驗的內容細則須要以課程內容大綱和教學目標為準。但對安置測驗(placement test)來說,可能有必要審視好幾門課在起步時所要求的知識和技能。

標準 3.4編輯
    • 解釋測驗成績的步驟須作成書面說明。合適時,建立常模的或建立標準的樣本,以及所使用的標準也須作成書面說明。**

說明:測驗內容細則可以注明測驗分數的解釋是相對的還是絕對的,或是兩者兼而有之。 相對分數解釋情形下,一個人(或一群人)的位置是由這個人的分數(或次群體的平均分數)相對於他所比較的一個或多個事先劃定的次群體而定的。 絕對分數解釋情況下,個人分數或平均分數假設為直接反映受測者(或受測者次群體)在某個已經定義的標準方面的精熟程度,針對一種解釋而設計的測驗對另一種解釋可能效果不是那麼好。但是,假如設計合理並有輔助數據資料的話,常模測驗計畫裡得出的分數,也有可能作出還說得過去的絕對參照標準的分數解釋。反之亦然,絕對參照標準測驗計畫裡產生的分數也可能得出合理的相對分數解釋。


標準 3.5編輯
    • 在恰當的時候,應該由非施測計畫內的有關專家來審查測驗內容細則。審查原因、審查進行的過程、和審查結果應作成書面說明。而專家的資格、相關經驗、和人口統計學方面的特性(如性別、族裔等)也應作成書面說明。**

說明:由專家複核測驗內容細則可以達到多種目的(例如,幫助確定內容的品質及代表性),專家中也可包括測驗內容細則所注明的受測群體的代表。例如,如果測驗會關係到少數族裔的利益時,複審專家中通常都會包括有關族裔的代表或是少數族裔事務專家。

標準 3.6編輯
    • 題型、作答方式、評分程序、和施測步驟需要在測驗的目的、測量的內容範圍、和所針對的受測群體的基礎上進行選擇。在可能程度內,所選擇的測驗內容應能保証對不同的受測者次群體的分數的推論都具有同等效度。測驗的審查過程應該包括實証數據資料分析。恰當的時候,還應邀請專家來審查試題和作答方式式。這些專家的資格、相關經驗以及人口統計學方面的特徵資料也須要作成書面說明。**

說明﹕專家可能做的工作有確認對參加測驗的次群體受測者可能不合適、不清楚或具有冒犯性的材料。例如,可能會請專家們確認,數學文字題裡缺少上下文對於有些學生來講是否會造成問題。各種受測者次群體可按年齡、族裔、文化、性別、殘障類型、或人口統計學方面的地區分布來劃分。但這種証據也是有限的,專家的審查可能會使施測中的不公平現象緩解一些。

標準 3.7編輯
    • 研發、審查、檢驗試題、和從題庫裡選題的程序必須作成書面說明。如果是根據測驗內容細則分類成幾個單元時,分類的程序和單元的準確性及合適性都須作成書面說明。**

說明﹕實証証據或專家仲裁可用於根據測驗內容細則而作的單元試題分類。例如,專家小組可將試題分類,或是判斷測驗編製者的單元劃分是否合適。挑選專家小組成員和確定程序要非常謹慎,因為兩者都將影響分類的準確性。

標準 3.8編輯
    • 在進行試題預試(item try out)時,挑選參加預測的受測樣本的步驟,和終極樣本的特性都應作成書面說明。在分派樣本時,應儘量使參加預試的對象能夠充分代表各個次群體。**

說明﹕導致預試樣本相對於其整個預期群體,在解題時可能出現的些微差異狀況,應該適時作成書面說明。比如說,當接受預試的受測者知道他預試的分數對他沒有任何利害關係時,他們的做答動機就不會像正式受測者那麼高。

標準 3.9編輯
    • 當測驗編製者在評鑑試題的心理計量特性時,應以書面說明其使用的是古典理論模式或是試題反應理論模式(IRT)。對於用來作試題分析的樣本應有詳盡的描述,而且樣本的大小和多樣性應該與試題分析方法相配合。選題的過程和用來作選題的數據資料(如試題難易度、試題鑑別度和(或)試題訊息度等),也都應作成書面說明。若是用試題反應理論模式來估計編製中測驗的試題參數的話,那試題反應模式、估算步驟、以及模式的適配性(model fit)的証據,都應該做成書面說明。**

說明﹕雖然整個樣本的大小很重要,但在對於試題的心理計量上特性有決定作用的地區,抽取恰當數量的樣本也同樣重要。如果這個測驗期望在分數軸上的特定區域達到最精確的估算值,且這種考慮影響到試題的選擇時,試題統計參數使用的方法需要仔細說明。當以試題反應理論作為測驗編製的理論基礎時,要記錄下採用的模式和數據資料間的適配程度的數值就非常重要。這一點可以通過檢查試題反應理論的假設條件的滿足程度來完成(比如﹕單維性、試題局部獨立性、或試題斜率參數)。

測驗編製者應該証明,試用版測驗和正式測驗的實施條件之間如有任何差異都不應影響試題發揮。會影響試題統計參數的條件包括:試題在測驗中的位置、測驗時間限制、測驗題數、測驗方式(如:紙筆測驗還是電腦輔助性的測驗)、計算器或其他工具的使用。例如,在檢驗試題時,把某一試題放在試卷末尾時所得到的統計參數,就可能會比把它放在試卷中間時還要差。

標準 3.10編輯
    • 當試題的選擇主要是根據實証數據關係而非內容和理論上的考慮時,測驗編製者必須做交互驗證(cross-validation)研究。對於同一組試題的不同研究所得出的結果應作成書面說明。**

說明:當以數據資料為基礎的方法製作測驗時,試題的選擇主要是基於它們與某個外部效標的實証關係,或是試題之間的關係,或是能區別不同次群體受測者的力度。在這種情形下,很有可能有某些試題是因隨機而被選上的。將這份考卷給另一組可比較的樣本再做一遍,可以檢查出因隨機而被選上的試題。

標準 3.11編輯
    • 測驗編製者應將測驗內容所代表的領域和測驗內容細則都作成書面說明,以利於作出有效的分數解釋。**

說明:測驗編製者必須提供試題和評分規程代表限定內容領域的程度的証據,這樣有助於確定測驗分數是否能概推到對所評量的內容範圍。這一點對於只有少量試題的測驗(如實作評量)特別重要。這類証據可經由專家仲裁來提供。

標準 3.12編輯
    • 電腦化適性測驗(computerized adaptive tests)的理論根據和輔助証據應作成書面說明。這份文件應包括用於選擇單元試題的步驟、決定測驗起始點和結束條件的步驟、測驗評分的步驟、和控制試題曝光的步驟。**

說明:在記錄這些步驟的同時,仍保証試題的保密性,這點很重要。 如果一種電腦化適性測驗打算測量幾種不同的單元內容時,試題挑選步驟必須確保呈現給受測者的試題,都能恰當代表這些單元的內容。

標準 3.13編輯
    • 當測驗分數是將試題用差別加權(differential weighting)的方法推算出來時,測驗編製者應將研發、審核、和分配試題差別加權的理論根據和操作過程作成書面說明。試題加權(item weights)應足夠大,以能代表測驗的預期受測者群體。當試題的加權量是通過專家仲裁而獲得時,專家的資格和人數也必須作成書面說明。**

說明:受測者群體的變化、以及其他,諸如教學、培訓、或職位職能要求的變化都可能會影響到原來的試題加權量,所以過一段時間之後,有必要做追蹤研究(follow-up study)。

標準 3.14編輯
    • 用作衡量受測者在擴展性文字題分數的評分規程應該作成書面說明。這種書面記錄對於像可評分的學習歷程檔案和作文之類的實作評量尤其重要,因為評分規程對於測驗使用者而言,可能不那麼明顯。**

說明:測驗內容細則的明確和完成,包括內容領域的定義,對於研發評分規程至關重要。測驗編製者必須提供清楚的描述,說明如何理解或詮釋測驗分數,以保証評分步驟的合理性。

標準 3.15編輯
    • 當用標準化測驗形式來收集結構化的行為樣本時,內容領域、測驗設計、測驗內容細則和有關材料,應如其他任何測驗一樣,作成書面說明。這份文件應包括對受測者所期望的行為、所期望的試題回答的性質,以及任何與現成測驗有關的資料和指示。**

說明:在編擬一個行為提示(prompt)時,受測者的年齡、語言、經歷和能力都需要加以考慮。對某些受測者次群體來說,可能特別困難的因素也應考慮進去。需具體說明的測驗時間限制、所期望的回答的性質、有關使用補充材料(如筆記、參考文獻、字典、計算器、或實証儀器之類的需要操作的器械等)的指示等,可以在預試測驗中建立。

標準 3.16編輯
    • 如果準備一個測驗的濃縮版(如減少原來測驗的試題或用原版的部分試題組合成另一個版本的試卷)。濃縮版的測驗內容細則應該和原版測驗的儘可能地一致,而減少試題的程序應作成書面說明。**

說明:濃縮版的測驗內容細則和原版的差異程度,以及這種差異對於濃縮版測驗分數的解釋有什麼意義,都應作成書面說明。

標準 3.17編輯
    • 當已有的研究表明,與構念無關的變異量可能會混淆測驗的內容領域的定義時,那麼在做得到的情形下,測驗編製者應該調查與構念無關變異量的來源。只要可能,測驗編製者應該排除或減少這些無關變異量的來源。**
標準 3.18編輯
    • 對於有時間限制的測驗,在確認測驗測量了設計測量內容領域的前提下,測驗編製的調查中應該檢查分數中包括速度部分的程度,並評鑑這部分的合適性。**
標準 3.19編輯
    • 測驗指導語應該要掌握重點並表達清楚,這樣別人才能夠恰當地重複施行測驗的條件。而信度、效度以至常模的數據資料都應在這種標準化的條件下收集。**

說明:因為包括學校、工廠企業、和醫療單位在內的所有施測人員都需認真遵守實施測驗的規定,所以施測人員接受具體的施測指導和施測步驟的指示,就變得非常重要。

標準 3.20編輯
    • 給受測者的作答指示應該足夠詳細,以使受測者能夠按照測驗編製者的意圖答題。適當時,應在測驗之前提供給受測者樣本材料,如練習或範例題、評分規程、以及每個主要單元的代表性試題,或是將此類材料作為標準的施測說明的一部分。**

說明:例如,在人格量表裡,可能希望受測者以第一反應答題。那麼這個期望就應在量表的指導語裡清楚講明。再例如,在興趣和職業調查表的說明裡,要求受測者具體標明他們理想中想做的活動,和那些他們實際認為有機會和有能力做的事情就可能很重要。 練習材料的性質和程度依據對受測者知識程度的期望而定。例如,如採用一種新型的測驗方式時,給受測者練習的機會可能就很重要。在有些施測情形下,說明猜題和時間限制對測驗分數的效果可能也很重要。若允許詳細描述測驗說明的話,上面做法的條件須以一般規則的形式再加上有代表性的例題清楚地加以闡述。若詳細描述不允許的話,也須明確說明。測驗發行單位應在材料中包括處理受測者典型問題的指導。測驗使用者也應當被告之,要如何處理測驗期間出現的問題。

標準 3.21編輯
    • 如果測驗編製者指明在受測者之間,或不同受測者次群體之間,允許施測的條件有變化的話,要確認條件可變化的允許範圍,以及用書面說明允許有不同施測條件存在的理由。**

說明:在決定施測條件是否可以變更時,測驗編製者必須考慮並研究不同施測條件所造成的可能效果。如果施測條件不同於測驗編製者所研究的條件,或不同於建立常模的條件時,那測驗分數的可比較性就會被削弱,而常模的應用也會受到質疑。

標準 3.22編輯
    • 測驗編製者應該提供清晰且詳細的評分程序以及(若適當時)評分準則,以儘可能提高評分的精確度。評定量尺(rating scales)的使用說明,不論是經由編碼(coding)、量尺化(scaling)或是對自由反應答案作分類(classifying free responses)所獲得的分數,以及其衍生分數,都應該清楚地加以說明。如果測驗是委託當地人員評閱的話,這一點特別重要。**
標準 3.23編輯
    • 測驗編製者應將評分者的篩選、訓練、資格認証的過程作成書面說明。訓練資料,比如評分規程,和代表分數量尺上每一點(級別)的受測者答案的樣本,以及訓練評分人員的步驟,都應使他們取得一定程度的一致性,以致於對測驗分數的解釋上能夠符合測驗編製者的期望。主持訓練者對於評分者信度,以及評分者的評分標準可能飄移的現象,要加以評鑑並作成報告。**
標準 3.24編輯
    • 當評分由地方評量機構負責,並需要評分人員的判斷時,測驗使用單位要要針對評分人員提供合適的培訓和說明,並負責檢查評分人員評分的一致性和正確性。測驗編製者應該以書面說明評分人員在評分的一致性和正確性上應達到的水準。**

說明:測驗編製者的一個普遍做法是當測驗是由地方閱卷時,應向其提供培訓材料的樣品(如評分規程、在每個分數級別的樣品)和步驟。

標準 3.25編輯
    • 測驗應在以下情形下做出增訂或修訂;當有新的研究數據資料出來時,在所代表的內容領域出現顯著變化時,或測驗用途的最新推薦條件,而可能降低測驗分數解釋的效度時。雖然某種仍然有用的測驗不應僅僅是因為時間的流逝而修訂或取消,測驗編製者和出版商有責任監控各樣條件的變化,並增訂、修訂、或撤回這一測驗。**

說明:測驗編製者需考慮會引起修訂測驗的幾個因素,包括過時的測驗內容和語言。如果在一種測驗的新版已經出來後,仍然使用舊版本時,測驗出版商應該提出証據說明在特定的測驗用途上,舊版本和新版本一樣合適。

標準 3.26編輯
    • 除非測驗真的有重大修訂,否則不可以冠以「修訂」(revised)一詞,或是在廣告中如此說。如果只是有些次要的修正的話,用「小幅度修正」(minor modification)就夠了。為了顧及這些修正,分數量尺也須要作適當調整,還應通知測驗使用者有關分數量尺的調整。**

說明:決定一個測驗的修訂是否影響到測驗分數的解釋,這是測驗編製者的責任。如果確實會影響測驗結果的解釋,那麼將這測驗冠以「修訂」一詞是合宜的。當測驗被冠以「修訂」時,那麼修訂的性質,以及它們對於測驗分數解釋的影響都應該做成書面說明。

標準 3.27編輯
    • 如果一種測驗只是用於作研究,並非是對受測者有立即影響的正式測驗時,這一點必須明顯地登載在提供給測驗使用者的所有測驗實施和解釋的材料上。**

說明:這條標準只是針對用作研究的測驗,不是針對發生在測驗正式啟用前(如預試)的標準測驗編製程序。

您使用了廣告過濾軟體!


Wikia通過廣告運營為使用者提供免費的服務。我們對通過嵌入廣告過濾軟體訪問網站的使用者進行調整。

如果您使用了廣告過濾軟體,將無法使用我們的服務。請您移除廣告過濾軟體,以確保頁面正常載入。

查看其他FANDOM

隨機Wiki