| 二、 基本學力分數建立的理論依據 |
| | 一般測驗機構所採用的量尺分數大概可以分為兩種: |
| | (1)將原始分數常態轉換(normalizing raw scores)之量尺分數。例如美國教育測驗服務社(ETS)的GRE或TOEFL測驗分數,就是將原始分數常態化轉換後的量尺分數。智力測驗中的比西量表分數(Stanford-Binet Intelligence Scale)及魏氏兒童智力量表分數(Wechsler Intelligence Scale for Children-Revised Form; WISC-R)等亦是一種將原始分數常態轉換後的量尺分數。 |
| | 一般測驗機構所採用的量尺分數大概可以分為兩種:(1)將原始分數常態轉換(normalizing raw scores)之量尺分數。例如美國教育測驗服務社(ETS)的GRE或TOEFL測驗分數,就是將原始分數常態化轉換後的量尺分數。智力測驗中的比西量表分數(Stanford-Binet Intelligence Scale)及魏氏兒童智力量表分數(Wechsler Intelligence Scale for Children-Revised Form; WISC-R)等亦是一種將原始分數常態轉換後的量尺分數。 |
| | (2)均等測量標準誤(equalizing measurement error variability)之量尺分數。均等測量標準誤量尺分數在國內較少見,這是E. L. Lindquist 在發展「愛荷華教育發展測驗」(Iowa Tests of Educational Development, ITED)時所提出來建立量尺的方法,也是美國知名的測驗機構ACT公司的ACT Assessment Test (ACT, 1997) 所採用的量尺分數型態。基本上,這是在原始分數轉換成量尺分數的同時,利用數學的方法將每一個量尺分數點上的測量標準誤(或稱測量誤差)調整成相等或是非常接近(Kolen & Hanson, 1989; Kolen, Hanson, & Brennan, 1992)。在測驗上通常見到的是,對在兩個極端的考生(即能力較高或較低的考生)而言,測驗分數的誤差會比在一般中等能力考生的測驗分數的誤差還要大﹔換言之,當誤差較大時,測驗信度比較低,測量結果也比較不穩定、不可靠。當不同量尺分數有不同大小的測量誤差時,除了前述的問題外,還會增加解釋測驗分數時的複雜程度,原因是這時候還要準備一個列有各個量尺分數測量誤差的表格,而且不同考生分數之信賴區間的大小亦將有所不同(Kolen, Hanson, & Brennan, 1992)。 |
| | 如果採用均等測量標準誤的量尺分數,不同能力考生所得分數的精確程度將會類似,不至於有能力高或能力低的考生的測量誤差比能力中等的考生測量誤差來得大的情形。而因為在各分數點上的測量誤差均等或非常近似,也使得分數帶解釋方式的運用變得容易。因此,基本學力測驗將採用這種均等測量標準誤的量尺分數。 |
| | 根據Truman L. Kelley 的建議(引自Brennan & Kolen, 1989),建立量尺分數時應有「使考生分數之68%的信賴區間大約由量尺分數加減3分所形成」的這個特性,亦即測量標準誤為3分。也可以說,有68%的考生所得之量尺分數,會落在他們真實量尺分數上下3分的範圍之內。 |
| | 我們保守的估計,基本學力測驗的信度係數至少應在.85或以上,又假定測量標準誤差為3分,根據測量標準誤與信度關係的公式 |
| | 測量標準誤 = 標準差 * sq(1 - 信度) |
| | 帶入上述的值 |
| | 3=SD * sq(1 - 0.85) |
| | 結果,我們可以計算得到標準差(SD)為 7.75。採用平均數上下四個標準差(幾乎涵蓋所有考生)的量尺尺度,根據Truman Kelley 的法則,量尺分數尺度上可以有62個分數點(7.75 * 8 - 62 )。因此,基本學力測驗的量尺分數(即基本學力分數)採用Kelley的建議,單純的將分數定為1~60,平均數為30,並不進一步將分數以倍數關係放大表示。 |
| 四、 基本學力分數的解釋與使用 |
| | 由上一節的說明,我們可以了解基本學力分數的平均數為30,標準差為7.75,測量標準誤為3。如果某一個考生在某一個科目上的得分為31,那麼我們可以知道在這個科目上,至少有一半的考生之得分比該生低。假若某一個考生的英語是38,國文是30,則我們從數字的外表也可以推知該生的英語得分在所有考生中,是在平均數以上一個標準差以上,若換算成百分等級(percentile rank, PR)的話,則是在84左右,也就是說100人中有84人的英語科得分比該考生低。但相對地,該考生的國文分數在所有的考生中,只是在平均數,亦即百分等級約為50。我們也可了解的是,在所有的考生中,該生的英語科之表現應是比國文科來的好。關於幾個比較重要的基本學力分數與其百分等級之對照轉換,可以在下表中找到。 |
| 基本學力分數 |
說 明 |
相對應之百分等級 |
| 約53 |
平均數以上3個標準差 |
99 |
| 約46 |
平均數以上2個標準差 |
95 |
| 約38 |
平均數以上1個標準差 |
84 |
| 約30 |
平均數本身 |
50 |
| 約22 |
平均數以下1個標準差 |
16 |
| 約14 |
平均數以下2個標準差 |
5 |
| 約7 |
平均數以下3個標準差 |
1 |
|
| | 由於,基本學力測驗並不強調百分等級的問題,也不在考生的測驗分數報告書上提供百分等級,在此純粹是作為分數意義之解釋的參考而已。 |
| | 從統計上的實質意義來看。由於每一個分數都有測量誤差,因此兩個人在測驗分數上的些微差距可能是誤差造成的。通常我們會以統計上是否有達到顯著的差異來說明兩個人的分數到底有沒有差異。舉例來說,如果一個人的分數是40分,而測量誤差是3分,此時我們可以用40+3分來表示此人的能力範圍,也就是37-43分之間。以常態分布的機率來看,此人能力介於37-43分之間的機率約為68%(林清山,1992)。現今有另一個人,其分數為43分,測量誤差也是3分,則我們就有68%的信心認為此人的分數比前一個人高的。當然我們也可以用兩個標準差來作為判斷兩個人的分數是否有差異的依據,例如,當一個人的分數是46分,誤差也是3分,比前述40分的人多了兩倍的測量誤差,我們就有更高的信心(約為95%)認為此人的分數比前一個人高。而這樣的比較都是建立在各個分數的測量誤差是相同的基礎之下,這也就是傳統測驗理論的基本假設(王寶墉,1995)。如果每個人的測量誤差都不相同,我們要比較每個人的分數就顯得相當麻煩,因為我們就不知道應該採取誰的測量誤差作為基準才好。這一點雖然在統計上仍有方法可循,但是對一般人而言恐怕更複雜了。 |
| | 為了能使基本學力測驗分數能夠具有統計上的實質意義,以避免用分數來進行分發或篩選學生時可能犯下的錯誤;又考慮到以兩個測量誤差來作為區分不同能力的依據會造成同分數的人太多,不利於分發或篩選學生,因此基本學力測驗將所有的原始分數都經過轉換,調整成每個人分數的測量誤差都是3分,如此一來,在使用成績時就能清楚的知道每相差3分,受測者能力是不相同的機率都是68%左右。 |
| | 在考慮了基本學力測驗的目的是要了解學生的基本能力,並且考慮在比較分數時,應盡量使每個測驗分數的測量誤差都相同的前提下,我們使用了第二種做法。根據測量誤差(SEM)與測驗信度(p)以及群體分數標準差的(SD)關係公式(如下所示,引自賴保禎,周文欽,林世華,1996): |
| | SEM = SD * sq(1 - p) |
| | 以我們對未來基本學力測驗的信度估計而言,一份40題左右的測驗,其信度應該有0.85左右(尤其在知道題目特性的前提下,應該可以更高)。再採用Kelley(引自Brennan, 1989)對測量標準誤差分數的建議,認為以3分為一個測量標準誤差單位較為理想,如此所計算出來的群體分數的標準差為7.75。再根據常態分布的機率來看,正負四個標準差就能涵蓋幾乎全部(99.99%)的人。因此,若要涵蓋所有的群體,量尺分數就必須要有62分(7.75 * 4 * 2)。為了使用上的方便,我們單純的將量尺分數定成1-60分,這就是基本學力測驗分數的由來。 |
| | 根據教育部頒訂「高級中學多元入學方案」,其中有三種入學管道應參酌或採計國民中學學生基本學力測驗分數作為學生入學之依據。然而上述辦法中並沒有明文規定各校參酌或採計的方式為何。以下僅就研究群與其他測驗學者的意見提出幾種方式供學校使用時參考(王文中,呂金燮,吳毓營,張郁雯,張淑慧,1999): |
| | 1.以分數形式來進行篩選 |
| | 這是直接使用基本學力分數來作為篩選學生的依據,不對分數再作轉換。又可以分為兩種。一種是完全採用基本學力測驗分數作為招收學生的依據,也就是篩選學生時只使用基本學力測驗成績,不另外進行其他評量。各校可於招生辦法中自訂申請者的分數範圍,若申請者數量大於招生人數時,再以分數的高低來篩選學生。這是比照傳統聯考制度所使用的辦法。而分數的使用又有許多種方法: |
| | (1)總分法。就是不對任何科目進行加權,也不定出申請者在各科分數的下限,直接使用原始總分高低作為篩選學生的依據。 |
| | (2)下限法。這種做法是由學校定出申請者在基本學力測驗各科分數的下限,只要高於此下限的人都可以來申請學校。若是申請者人數超過招生名額,再比較申請者的總分(下限總分法),或以某些科目分數較高者優先錄取(下限單科法)。 |
| | (3)加權法。是根據學校所希望塑造的特色,針對重點科目進行加權,再以加權後所計算出來的總分作為篩選學生的依據。例如,有些學校希望招收英語方面基本能力較好的學生來加強教育,以塑造學校在外語教育方面的特色,此時可以對英語科目加重計分。同理,若學校希望加強該校在人文素養或數理方面的特色,也可以選擇對國文科與社會科或是數學科與自然科加重計分。 |
| | (4)綜合法。這是結合上述幾種方法所形成的分數使用程序。例如,學校可以先依據下限法定出申請者在各科目或某些科目上的分數下限,再依加權法來計算學生經過加權後的分數,或直接以各科總分,或採用其中部分科目的總分來作為第二步驟的篩選的依據,若仍無法達到篩選的目的時,再以某些科目的高低作為優先錄取的標準。 |
| | 另一種是部分採用基本學力測驗分數。這是不完全以國中基本學力測驗成績作為錄取學生的依據,而是再輔以其他評量方式合併考量,來作為錄取學生的依據。對於推薦甄選或是高職、五專不同的入學方式,可以考慮以這種方式來進行。基本學力測驗分數的使用可以參考前一節所述的各種方法來進行,而其他評量方式則可以根據各校的特色或目標來執行。包含口試、過去學業成就表現評量、其他活動表現評量(例如:參與社團或研習活動、得獎紀錄、才藝表現、體能狀況…等)或其他相關測驗(學業性向測驗、興趣量表…等)。若是對基本學力測驗輔以其他方式評量的結果仍然不滿意,也不排除各校自行增加第二階段的考試,考試的形式由學校自訂。但是自行舉辦的考試仍然應當符合心理測量的條件,這樣對學生而言才是比較公平的。 |