教育與心理測驗標準/第一章標準

標準1.1[]

對於每個測驗分數的所建議解釋和用途都應該有理論根據，並且附有證據和解釋預期用途的理論綜述。**

說明：理論根據應指明研究所建議解釋需要什麼樣的前提條件。綜述應結合邏輯分析和實証證據對測驗的理論提出證據。證據可取自測驗將要使用的情境的區域性的研究；也可取自前人的研究；或取自現有的研究結果的全面統計綜合，而這些結果已明顯達到效標。沒有一種證據天生就比別的證據更可取，而是證據對預期的測驗用途的質量的相關性決定具體證據的價值。對任何一點的實證證據的敘述在科學文獻理應對所有的有關發現都給予應有的份量，甚至包括和預期解釋或用途不一致的結果。測驗研究人員有責任對自己提出的建議提出支持性的證據，但測驗使用者要評鑑所提供的效度證據的品質，和對本地情形的相關性。

標準1.2[]

測驗編製者應清楚說明測驗分數應該怎樣解釋和使用。應該清楚地界定測驗所適用的對象，測驗所想測量的構念也應該仔細地描述。**

說明：有關效度的敘述應是針對具體的解釋和用途而言。「測驗效度」是不正確的說法。沒有任何測驗適用於所有目的或所有情形。

每一個所建議用途或解釋都需要另作效度驗證，也應該使用清楚的語言具體指明測驗預期使用的全部對象、測驗所要測量的構念、以及測驗分數使用的方式和場合。

標準1.3[]

如果某些常用的或可能的解釋還沒有作效度研究的話，或是如果這些解釋和現有的證據不一致時，那麼應該清楚說明這一事實，並且應該提醒以後可能的測驗使用者，不要做無證據支持的解釋。**

說明：假如過去的經驗表明某個測驗會不恰當地被用來作成某種決定的話，對於這種用法要提出具體警告。再另一方面，沒有兩種情境是一模一樣的，所以，使用者作一定程度的概化也是有必要的，這時候需要以專業判斷（professional judgment）來評鑑現有的效度證據支持某一種測驗用途的程度。

標準1.4[]

如果一測驗用於從未作過效度驗證的用途上時，使用者有義務為新用途提出理論依據，必要時還需要收集新的證據。**

說明：評鑑現有的證據能運用於新情境的程度，並決定可能還需要什麼樣的新證據，這需要用到專業判斷。所需要的新證據的數量和類別，可能會受到以前對類似的測驗使用或解釋的經驗所影響，以及受到現有數據在數量上、品質上、和相關性方面的影響。

標準1.5[]

應根據實際情況，盡可能地具體描述獲取效度證據的任何受測者樣本的組成，包括社會人口統計學方面和智力發展方面的特性。**

說明：統計結果會受樣本因素的影響。當樣本是代表群體時，應該描述整個群體，特別要注意任何有規律的限制樣本代表性的因素。有些會影響結果的因素是可以事先考慮得到的，包括自我選擇、受測者流失、語言能力、殘障程度、排除（不合格受測者進入樣本的）準則以及其他因素。例如，如果效度研究的對象是病患的話，那麼，對於病患的診斷以及其他諸如診斷結果的嚴重性就很重要。對於用於企業界的測驗，樣本裡受測者的受聘身分（如應徵者或是在職人員）、工作經驗的一般程度、教育背景、以及性別和族裔的組成資料都可能有關。教育環境下的測驗裡，相關資料包括教育背景、發育程度、居住社區特性、學校錄取規定、以及樣本的性別和族裔的組成。但有時候由於尊重個人隱私權的限制使得獲取這些資料難以完成。

標準1.6[]

當以測驗內容的合適性作為效度驗證的一部分時，隨後確定和制定測驗內容的步驟應該依照測驗所測量的構念或所代表的學科領域，而作出描述並提出理論根據。如果抽選內容的定義也體現諸如重要性、出現頻率或關鍵性等效標時，應對這些測驗作出清楚的解說並提出理論根據。**

說明：例如，測驗編製者可能提供一個邏輯架構，排列出試題在學科領域的分布，表明每道題目的相關性，和整套題目及與之代表的學科領域的符合性。學科領域裡沒有包括在測驗裡的部分也最好加以說明。

標準1.7[]

當以專家組成的評分者、觀察員、和評分人員的意見或決定作為效度驗證的一部分時，應該先全面地描述挑選專家和徵求意見或評分的步驟。應對評分者的資歷作出報告。步驟的描述應包括所提供的任何訓練和指導，應指明所有的參與與者是否獨立作出自己的決定，還應該報告評分者間一致性的程度。如果參與者之間可以互相交換意見或訊息時，應該說明他們可能因此互相影響的程度。**

說明：有系統地收集專家的意見或判斷，在許多地方都會發生，如在測驗編製中（如在內容的合適性和內容的代表性方面徵求專家的意見），在判定對分數解釋的規定和標準時（如設定切截分數），或在評分時（如申論題的評分）。只要採用這個步驟，最後判斷的質量對效度驗證很重要。讓專家們通過共同作業以達到共識的做法是可以的，但是此時把他們的評分當作統計上的獨立作業就不合適了。

標準1.8[]

如果某個測驗用途或分數解釋的理論依據是以前受測者運用的心理過程或認知運作為前提時，那麼支持這些前提的理論或實證證據也應提出來，當觀察員或評分員把有關這些過程的證詞作為效度驗證的一部分時，應提供相應的訊息。**

說明：如果測驗的內容細則敘述了要測量的心理過程，那麼應提出測驗真正體現預期心理過程的證據。

標準1.9[]

如果某個測驗被認為根本上不會受到作練習和補習的影響，測驗分數對於這些指導形式的敏感度應作成書面說明。**

說明：幫助理解分數的材料應提供總結證據，指出因做練習和補習而提高分數的程度。另外，為受測者準備的材料也應有實際性的指導，告訴他們包括輔導在內的這些試前準備活動的價值。

標準1.10[]

在對具體試題或一組試題的分數作解釋時，應提出支持這種解釋的理論和有關證據。當有可能對每個試題的答案作解釋，而這種做法並不為測驗編製者所贊成時，應該提醒使用者不要這樣做。**

說明：應給使用者提供充分的指導，使他們能夠判斷測驗研究者推薦的任何用途和解釋的保險程度。測驗手冊和分數報告應阻止人們過度理解測驗訊息，因那樣會造成相當程度的錯誤。在對於孤立的試題、一組試題或單元測驗分數試圖作分析時，這一點非常重要。

標準1.11[]

如果測驗的用途和解釋是依賴測驗的各單元之間的關係作為前提條件的話，應提供測驗內容結構的證據。**

說明：例如，某個測驗可能實質上被認為是單維度的。這種說法可以運用多變量統計分析（如因素分析）來支持，證明測驗分數在主要維度上的變異量比在其它可確認的任一維度的變異量要大得多。當測驗可提供一個以上的分數時，這些分數之間的相互關係應該和所測量的構念相一致。

標準1.12[]

當建議對分測驗分數(subscores)、分數的差異(score differences)、或剖面圖(profiles)作解釋時，應提供支持這種解釋的理論根據和相關證據。當計算組合分數（composite scores）時，應該提出對於分測驗分數作加權(weighting)的基礎和理由。**

說明：當測驗提供一個以上分數時，不同分數之間的區別應加以解說。而且也應該表明這些分數間的相互關係和所測量的構念是一致的。進一步而言，對兩個不同分數的解釋所蒐集的效度證據，不一定就能說明他們之間的區別。此外，理論和支持性證據必須要直接適用於要解釋或使用的特定分數或分數組合。

標準1.13[]

當效度證據包括測驗答案資料的分析，不管是否伴隨其他變項資料，收集資料的條件必須儘可能詳細描述，以便使用者能夠判斷統計分析結果和當地條件的關連性。在收集效度驗證的資料時，注意力要放在：（1）可能會與標準施測條件不同的地分，以及（2）看上去可能會影響測驗表現的特性上。**

說明：這類條件可能包括（但不侷限於）下列各種：受測者的動機與事前的準備、全部受測者的測驗分數的分布、允許受測者作答的時間或其他測驗實施條件、主試人員的訓練和其他主試人員的特質、分開收集不同資料的時間間隔、自從效度證據獲得後到現在已經過了多久了。

標準1.14[]

當效度證據包括測驗答案和其他附加數據資料在內的實証分析時，應提供選擇這些變量的理論依據。在恰當和可行的地方，應敘述這些變量所體現的構念以及他們的技術特性。**

說明：所研究的施測手段裡分數之間、分數和其他變量間的關聯規律，應和理論上所期望的關聯一致。這些附加變量可能是人口統計方面的特徵、不同待遇或治療條件指示符號或是其他測量結果。這些附加的測量結果的信度和他們的預期解釋的效度成為現時測量手段之效度證據的一個重要部份。如果這些變量中有綜合總分的話，應解釋總分的構成。除分別考量每一個變量的特性外，防止因變量間表面聯繫而引起的錯理解也很重要。這些表面聯繫可包括有：關聯誤差，或因通用的測量方法或構成部分而形成的共同變異量。

標準1.15[]

當測驗分數的某一分數級段的程度確實能預期效標分數是否恰當時，應提供效標的各級程度和測驗分數各級段程度之關聯資料。**

說明：在這裡，迴歸公式會比相關係數更有用，因為後者通常不能充分描述測驗和其他變量之間的相關規律。平均值、標準差、和其他統計資料，以及在一個給定測驗分數的條件下效標分數的分布資料，在這時都很需要。變量間總關聯的關係證據應用這個關聯的形式和它在不同的測驗分數領域內的波動幅度來作補充。要注意的是，挑選一項或多項測量中獲得極端分數的受測者（或極端群體）所作的資料收集，通常不能對這種關聯提供合適的證據。

標準1.16[]

當效度驗證是依賴測驗分數與一或多個效標變項有關聯的證據時，應報告效標的合適性及技術品質方面的資訊。**

說明：對每個效標的描述應包括效標的信度、代表預期構念（如職位表現）的程度，以及可能受其他變異量因素影響的程度。特別要小心那些前人研究中已發現的可能對特定群體有利或不利的那些外界變異量來源。

標準1.17[]

如果測驗分數和其他量化變項一起用來預期某個結果或效標時，迴歸（或等化）分析需包括測驗分數和那些附加的有關變項。**

說明：一般而言，如果某一個效標有好幾個預測因子的話，最佳預測因子組合不能由某個效標分別一對一的檢查結果而定。常常，要將包括考試分數在內的每個變量逐次加入回歸公式中，看每加入一個新變量之後，該公式對預測正確的增值有多大(即多元逐步迴歸法)，這樣才更能說明問題。包含有多項預測因子的分析，應儘可能地作效度複核(cross-validated)，且迴歸係數所估計的精確度也應加以報告。

標準1.18[]

如果因為分數全距受限制或削弱(restriction of range or attenuation)，而需要作統計矯正時，有經過矯正和沒經過矯正的係數、以及所有用於作矯正的統計量都要加以報告。**

說明：兩個變項（如測驗分數和效標的數值）之間的相關係數視各個變項數值的全距而定。例如，經挑選出來的應徵者的分數和效標的全距通常會小於全部應徵者的全距。統計方法可校正這些被削弱的相關係數以反映所關心的整個群體，而不只是樣本本身。在比較各種不同的情境時，這種矯正是合理的。而報告矯正後的相關係數時也要報告作校正所使用的方法和其他統計資料。

標準1.19[]

如果一個測驗被推薦用來指派人接受不同的處理，或有可能作此用途時，且各種處理的結果能以在一個共同的效標互相比較的話，那麼只要有可能，就應提供不同結果的證據。**

說明：如果一個測驗用來作為職業、治療或教育方面的決策依據時，只是表明該測驗能預測安排或治療的結果是不夠的，還要有分類程序的效度證據，來表明測驗對於決定哪種人能從哪種安排和治療中更能受益。安排或治療的類別可能需要合併起來，以便有足夠的案例作統評分析。不過這種研究也可能因為道德上或法律上的約束，而不能對實驗組、控制組作不同的安排，而使其不可行。

標準1.20[]

當整合分析(meta analysis)用來表示測驗與其效標關係程度的證據時，區域性情境下的測驗與效標的變量應能與其他綜合研究結果相比較。如果有關研究（包括可信的證據）能說明任何其他的施測應用的特徵會影響測驗和效標關係的緊密程度時，要報告區域性情境下的哪些特徵和整合分析情境下的特徵之間的對應關係。任何可能限制將整合分析的結果用於區域性情境的重要分歧都需報告出來。**

說明：整合分析研究應融合所有能找得到的符合明確標明的效標的現有研究成果。測驗效度驗證證據多半是建立在數個測量的基礎上。一個整合分析研究可能只限定於一個測驗和一個效標。對每個包括在分析內的研究結果，測驗和效標的關係常用於一個共通的衡量單位---效應值（effect size）來表示。測驗和效標關係的緊密程度可能會因所用的測驗和效標（如工作種類、受測者特徵、測驗和效標結果收集的時間間隔、數據資料收集的年份或年代等）而減弱。如果測驗和效標的關係受到這些調節變量影響而波動時，那麼，只要研究論文的數量允許的話，整合分析研究應該分別報告相關情境特徵條件下的估計效應值分布。還可通過，例如像報告分類研究結果的效應值分布，或估計情境特徵對於效應值影響的大小來實現。

標準1.21[]

任何用來支持預定測驗用途的整合分析的證據應清楚地陳述出來，包括選擇以什麼方法進行研究論文的確認與編碼、矯正人為現象、檢查可能的調節變項等。在矯正諸如測驗效標信度不足、分數全距受限制等人為因素時所包含的假設以及假設的後果，也應該清楚敘述。**

說明：在整合分析過程中不可避免地會牽涉到對於不同方法的選擇與判斷，而作出這些判斷的基礎應該敘述清楚。在這些選擇含有一定程度的不確定因素時（如基於假設數值上的人為因素糾正），應該認識這種不確定性。同時，基於這些假設基礎上的有關效度結論的程度也應檢查和報告。

標準1.22[]

當一個測驗所建議的用途，已經明說或暗示它將會導致一個特定的結果時，應該提出預期這種結果的基礎以及其相關證據。**

說明：例如，如果確信使用某一測驗來挑選雇員，可以降低用人不當的錯誤，或節省培訓成本的話，就應該提出證據來支持這種斷言。使用測驗的利益的宣稱，可以透過邏輯或理論上的論證以及實證資料來加以支持。若研究文獻中的發現與所說的預期不相一致時，也應該給予重視。

標準1.23[]

當所建議的測驗用途或分數解釋是基於以下立場時，（即除測驗分數本身的訊息利用之外，施測或施測計畫本身會引起一些其他的間接利益），應清楚表明預見到這種間接利益的證據的理由。應提出邏輯上或理論上的證據以及實證證據以支持間接利益的可能。研究文獻中與所提間接利益相衝突的結果和其他重要的間接利益的發現，都應給予其應有的地位。**

說明：例如，有些測驗或測驗計畫之所以受到推崇，是因為它們被認為對於班級教學有好的影響，或是因為它們能使學生明瞭，要在什麼方面達到什麼程度的分數。當這類斷言為某個測驗計畫作辯護時，它們就變成效度證據的一部分，因此，也應作為效度驗證的一部分，而受到檢驗。與這種預期相衝突的證據也應該給予應有的考慮。例如，關於在某些情形下，教育測驗會對班級教學造成負面效果的證據。

標準1.24[]

當測驗應用產生意外結果時，應該仔細調查，以確認這種結果究竟是來自於測驗對於意圖測量的特質之外的特質過於敏感，還是來自於測驗無法充分代表所要測量的構念。**

說明：測驗分數解釋的效度可能受到與構念無關變異量或構念代表性低落的限制。當意外後果（起碼在部分上）似乎來自於使用一種或數種測驗時，檢查這些意外後果並非來源於這些無效度的因素十分重要。儘管群體間差異就其本身而言，並不一定會對所提議的解釋的效度產生質疑，但它會提醒人們在效度驗證過程中，應該更認真地對待那些似乎有理的對立假設。