校園簡介 | 校務行政 | 飛鴿傳書 | 校園公告 | 網路資源 | 校園網頁 | 資訊素養研習專區| 教材資料庫 |民生首頁
師生聯絡簿
|校務行政數位聯絡網|民生郵局| 台北教育入口網 | 電腦報修暨常見問題 |九年一貫 | 居家隔離學習網

教務處 | 訓導處 | 總務處 | 輔導室 | 人事室 | 會計室 | 教師會 | 家長會
一、 為何需要建立基本學力分數
截至目前為止,國內的各項考試分數都是以對各個題目加權計分而得到,也就是不同的題目可能有不同的配分比重,然後加總得到一個總分做為該科的分數。就測驗的術語來說,在某個測驗上的答對題數是為該考生在那份測驗所得到的原始分數(raw score)。相同的,考生在基本學力測驗某一科的答對題數是為該生在那個科目所得到的原始分數,在考生所收到的測驗結果通知書上,各科的原始分數將被轉換成1~60分的基本學力分數。分數的轉換是依照專家學者針對基本學力測驗所進行之研究結果所建立的公式來進行的。為何要用基本學力分數呢,我們可從底下數點來看。
(1)原始分數本身並沒有提供統計上的意義。比如說,在一個有60個試題的測驗來說,如果甲生的原始分數為48,乙生的分數為46。就過去一般的習慣來說,兩人的分數相差兩分,但是,甲生是不是真的考的比乙生還要好?也就是說,甲乙兩人分數是否達到統計上所謂的「顯著差異」呢?通常原始分數並沒有辦法直接回答這個問題。原始分數能直接提供的訊息是甲生比乙生多答對了兩題,如經過換算,也可讓我們知道甲生答對了80%的題目,而乙生答對76.7%的題目。因為測驗的目的在希望能測得考生的真實能力,而我們也理解影響考生的答題反應因素非常多,要在一次的施測中測出考生的真實能力實在是不大可能。因此當我們想要對『兩個考生的得分之間是否有差異』這個假設來下結論時,通常我們都得將統計學上機率的概念納入考慮。因此,僅靠原始分數或答對的百分比實在是很難回答甲、乙兩位考生之得分是否有差異。
(2)分數解釋的問題。在標準化測驗的習慣上,是以一個分數帶來解釋某一個考生的得分,假若一個考生的得分(原始分數或基本學力分數)為40,而測量標準誤(standard error of measurement)為3,則40±3(即37到43)為該考生的68%信賴區間,也就是該考生的分數帶。如果因練習而分數可能會有所增加這個因素我們不列入考慮的話,我們有信心說在相同的條件下,若該考生重複地考那份測驗100次的話,約有68次的得分會在37到43分之間。另一種解釋的方式是,我們有信心說該生的真實分數約有68%的機會是在37到43分之間。用分數帶的方式來看待考生的得分,基本上已經把前一點所提到的機率之概念考慮在內了。
二、 基本學力分數建立的理論依據
一般測驗機構所採用的量尺分數大概可以分為兩種:
(1)將原始分數常態轉換(normalizing raw scores)之量尺分數。例如美國教育測驗服務社(ETS)的GRE或TOEFL測驗分數,就是將原始分數常態化轉換後的量尺分數。智力測驗中的比西量表分數(Stanford-Binet Intelligence Scale)及魏氏兒童智力量表分數(Wechsler Intelligence Scale for Children-Revised Form; WISC-R)等亦是一種將原始分數常態轉換後的量尺分數。
一般測驗機構所採用的量尺分數大概可以分為兩種:(1)將原始分數常態轉換(normalizing raw scores)之量尺分數。例如美國教育測驗服務社(ETS)的GRE或TOEFL測驗分數,就是將原始分數常態化轉換後的量尺分數。智力測驗中的比西量表分數(Stanford-Binet Intelligence Scale)及魏氏兒童智力量表分數(Wechsler Intelligence Scale for Children-Revised Form; WISC-R)等亦是一種將原始分數常態轉換後的量尺分數。
(2)均等測量標準誤(equalizing measurement error variability)之量尺分數。均等測量標準誤量尺分數在國內較少見,這是E. L. Lindquist 在發展「愛荷華教育發展測驗」(Iowa Tests of Educational Development, ITED)時所提出來建立量尺的方法,也是美國知名的測驗機構ACT公司的ACT Assessment Test (ACT, 1997) 所採用的量尺分數型態。基本上,這是在原始分數轉換成量尺分數的同時,利用數學的方法將每一個量尺分數點上的測量標準誤(或稱測量誤差)調整成相等或是非常接近(Kolen & Hanson, 1989; Kolen, Hanson, & Brennan, 1992)。在測驗上通常見到的是,對在兩個極端的考生(即能力較高或較低的考生)而言,測驗分數的誤差會比在一般中等能力考生的測驗分數的誤差還要大﹔換言之,當誤差較大時,測驗信度比較低,測量結果也比較不穩定、不可靠。當不同量尺分數有不同大小的測量誤差時,除了前述的問題外,還會增加解釋測驗分數時的複雜程度,原因是這時候還要準備一個列有各個量尺分數測量誤差的表格,而且不同考生分數之信賴區間的大小亦將有所不同(Kolen, Hanson, & Brennan, 1992)。
如果採用均等測量標準誤的量尺分數,不同能力考生所得分數的精確程度將會類似,不至於有能力高或能力低的考生的測量誤差比能力中等的考生測量誤差來得大的情形。而因為在各分數點上的測量誤差均等或非常近似,也使得分數帶解釋方式的運用變得容易。因此,基本學力測驗將採用這種均等測量標準誤的量尺分數。
根據Truman L. Kelley 的建議(引自Brennan & Kolen, 1989),建立量尺分數時應有「使考生分數之68%的信賴區間大約由量尺分數加減3分所形成」的這個特性,亦即測量標準誤為3分。也可以說,有68%的考生所得之量尺分數,會落在他們真實量尺分數上下3分的範圍之內。
我們保守的估計,基本學力測驗的信度係數至少應在.85或以上,又假定測量標準誤差為3分,根據測量標準誤與信度關係的公式
測量標準誤 = 標準差 * sq(1 - 信度)
帶入上述的值
3=SD * sq(1 - 0.85)
結果,我們可以計算得到標準差(SD)為 7.75。採用平均數上下四個標準差(幾乎涵蓋所有考生)的量尺尺度,根據Truman Kelley 的法則,量尺分數尺度上可以有62個分數點(7.75 * 8 - 62 )。因此,基本學力測驗的量尺分數(即基本學力分數)採用Kelley的建議,單純的將分數定為1~60,平均數為30,並不進一步將分數以倍數關係放大表示。
三、 為何用1~60分
在這個時候,相信有許多人會問到的一個問題是「為何不用1~100分呢?」或者是「為何不用像SAT或者是GRE的量尺分數(平均數為500,標準差100)?」讓我們先考慮1~100分的情形,在這個量尺下平均數為50分,而平均數上下各4個標準差可涵蓋所有的分數點,於是我們可以得到標準差是12.5﹔帶入上述的公式,可以得到測量標準誤為4.84。如此,考生的68%信賴區間(或分數帶)就變成其量尺分數加減4.84分。同樣的,如果用SAT或GRE的量尺(亦即平均數為500,標準差100),測量標準誤則變成38.73﹔也就是說,考生的量尺分數加減38.73分就變成了該考生的分數帶或68%信賴區間。
由前一節所提到分數帶與統計學上「顯著差異」的觀念來看,在同樣大小的信度之下,我們可了解到當分數量尺放大時,測量標準誤也跟著變大,兩個考生分數之間的差異也要跟著變大才可能達到顯著的差異。也就是說,如果測驗的信度係數維持在.85,兩個考生的分數若相差一個測量標準誤的大小,當用1~60分的量尺時,兩個考生的分數是相差3分,用1~100分的量尺時,兩個人的分數是相差5(或4.84)分,而用200~800(SAT及GRE只用平均數上下加減3個標準差)分的量尺時,則是相差39(或38.73)分。
四、 基本學力分數的解釋與使用
由上一節的說明,我們可以了解基本學力分數的平均數為30,標準差為7.75,測量標準誤為3。如果某一個考生在某一個科目上的得分為31,那麼我們可以知道在這個科目上,至少有一半的考生之得分比該生低。假若某一個考生的英語是38,國文是30,則我們從數字的外表也可以推知該生的英語得分在所有考生中,是在平均數以上一個標準差以上,若換算成百分等級(percentile rank, PR)的話,則是在84左右,也就是說100人中有84人的英語科得分比該考生低。但相對地,該考生的國文分數在所有的考生中,只是在平均數,亦即百分等級約為50。我們也可了解的是,在所有的考生中,該生的英語科之表現應是比國文科來的好。關於幾個比較重要的基本學力分數與其百分等級之對照轉換,可以在下表中找到。
基本學力分數 說 明 相對應之百分等級
約53 平均數以上3個標準差 99
約46 平均數以上2個標準差 95
約38 平均數以上1個標準差 84
約30 平均數本身 50
約22 平均數以下1個標準差 16
約14 平均數以下2個標準差 5
約7 平均數以下3個標準差 1
由於,基本學力測驗並不強調百分等級的問題,也不在考生的測驗分數報告書上提供百分等級,在此純粹是作為分數意義之解釋的參考而已。
從統計上的實質意義來看。由於每一個分數都有測量誤差,因此兩個人在測驗分數上的些微差距可能是誤差造成的。通常我們會以統計上是否有達到顯著的差異來說明兩個人的分數到底有沒有差異。舉例來說,如果一個人的分數是40分,而測量誤差是3分,此時我們可以用40+3分來表示此人的能力範圍,也就是37-43分之間。以常態分布的機率來看,此人能力介於37-43分之間的機率約為68%(林清山,1992)。現今有另一個人,其分數為43分,測量誤差也是3分,則我們就有68%的信心認為此人的分數比前一個人高的。當然我們也可以用兩個標準差來作為判斷兩個人的分數是否有差異的依據,例如,當一個人的分數是46分,誤差也是3分,比前述40分的人多了兩倍的測量誤差,我們就有更高的信心(約為95%)認為此人的分數比前一個人高。而這樣的比較都是建立在各個分數的測量誤差是相同的基礎之下,這也就是傳統測驗理論的基本假設(王寶墉,1995)。如果每個人的測量誤差都不相同,我們要比較每個人的分數就顯得相當麻煩,因為我們就不知道應該採取誰的測量誤差作為基準才好。這一點雖然在統計上仍有方法可循,但是對一般人而言恐怕更複雜了。
為了能使基本學力測驗分數能夠具有統計上的實質意義,以避免用分數來進行分發或篩選學生時可能犯下的錯誤;又考慮到以兩個測量誤差來作為區分不同能力的依據會造成同分數的人太多,不利於分發或篩選學生,因此基本學力測驗將所有的原始分數都經過轉換,調整成每個人分數的測量誤差都是3分,如此一來,在使用成績時就能清楚的知道每相差3分,受測者能力是不相同的機率都是68%左右。
在考慮了基本學力測驗的目的是要了解學生的基本能力,並且考慮在比較分數時,應盡量使每個測驗分數的測量誤差都相同的前提下,我們使用了第二種做法。根據測量誤差(SEM)與測驗信度(p)以及群體分數標準差的(SD)關係公式(如下所示,引自賴保禎,周文欽,林世華,1996):
SEM = SD * sq(1 - p)
以我們對未來基本學力測驗的信度估計而言,一份40題左右的測驗,其信度應該有0.85左右(尤其在知道題目特性的前提下,應該可以更高)。再採用Kelley(引自Brennan, 1989)對測量標準誤差分數的建議,認為以3分為一個測量標準誤差單位較為理想,如此所計算出來的群體分數的標準差為7.75。再根據常態分布的機率來看,正負四個標準差就能涵蓋幾乎全部(99.99%)的人。因此,若要涵蓋所有的群體,量尺分數就必須要有62分(7.75 * 4 * 2)。為了使用上的方便,我們單純的將量尺分數定成1-60分,這就是基本學力測驗分數的由來。
根據教育部頒訂「高級中學多元入學方案」,其中有三種入學管道應參酌或採計國民中學學生基本學力測驗分數作為學生入學之依據。然而上述辦法中並沒有明文規定各校參酌或採計的方式為何。以下僅就研究群與其他測驗學者的意見提出幾種方式供學校使用時參考(王文中,呂金燮,吳毓營,張郁雯,張淑慧,1999):
1.以分數形式來進行篩選
這是直接使用基本學力分數來作為篩選學生的依據,不對分數再作轉換。又可以分為兩種。一種是完全採用基本學力測驗分數作為招收學生的依據,也就是篩選學生時只使用基本學力測驗成績,不另外進行其他評量。各校可於招生辦法中自訂申請者的分數範圍,若申請者數量大於招生人數時,再以分數的高低來篩選學生。這是比照傳統聯考制度所使用的辦法。而分數的使用又有許多種方法:
(1)總分法。就是不對任何科目進行加權,也不定出申請者在各科分數的下限,直接使用原始總分高低作為篩選學生的依據。
(2)下限法。這種做法是由學校定出申請者在基本學力測驗各科分數的下限,只要高於此下限的人都可以來申請學校。若是申請者人數超過招生名額,再比較申請者的總分(下限總分法),或以某些科目分數較高者優先錄取(下限單科法)。
(3)加權法。是根據學校所希望塑造的特色,針對重點科目進行加權,再以加權後所計算出來的總分作為篩選學生的依據。例如,有些學校希望招收英語方面基本能力較好的學生來加強教育,以塑造學校在外語教育方面的特色,此時可以對英語科目加重計分。同理,若學校希望加強該校在人文素養或數理方面的特色,也可以選擇對國文科與社會科或是數學科與自然科加重計分。
(4)綜合法。這是結合上述幾種方法所形成的分數使用程序。例如,學校可以先依據下限法定出申請者在各科目或某些科目上的分數下限,再依加權法來計算學生經過加權後的分數,或直接以各科總分,或採用其中部分科目的總分來作為第二步驟的篩選的依據,若仍無法達到篩選的目的時,再以某些科目的高低作為優先錄取的標準。
另一種是部分採用基本學力測驗分數。這是不完全以國中基本學力測驗成績作為錄取學生的依據,而是再輔以其他評量方式合併考量,來作為錄取學生的依據。對於推薦甄選或是高職、五專不同的入學方式,可以考慮以這種方式來進行。基本學力測驗分數的使用可以參考前一節所述的各種方法來進行,而其他評量方式則可以根據各校的特色或目標來執行。包含口試、過去學業成就表現評量、其他活動表現評量(例如:參與社團或研習活動、得獎紀錄、才藝表現、體能狀況…等)或其他相關測驗(學業性向測驗、興趣量表…等)。若是對基本學力測驗輔以其他方式評量的結果仍然不滿意,也不排除各校自行增加第二階段的考試,考試的形式由學校自訂。但是自行舉辦的考試仍然應當符合心理測量的條件,這樣對學生而言才是比較公平的。
2.以等級形式來進行篩選
這種做法是先將分數化成等級的形式,再以等級的形式來進行篩選。由於分數本身都是有測量誤差的,以基本學力測驗分數而言,分數的測量標準誤差約為3分。也就是說,一個得分為30分的人,其能力並非固定是在30分的位置,而是有68%的機率是在30+3分的範圍內,有95%的機率是在30+6分的範圍中。因此,以分數來篩選人時,如果兩個人分數的差距愈小,則判斷其能力有差異所可能犯錯的機率愈高。為了降低犯錯的機率,可以將分數轉成等級的形式。例如,以3分為一個等級,將1-60分轉換成20等級。再以等級的形式來篩選學生。當然,如果希望犯錯的機率更小,可以用6分為一個等級,將分數轉換成10個等級,再以此來篩選學生。定出等級後,各校可以自訂申請者在各科等級上的下限,並以此來篩選學生。若無法滿足需求,再輔以其他評量來幫助篩選。 不論採用哪一種方式,學校都應事先公布讓學生知道,並在招生辦法中明訂。如此才能讓了解學生如何使分數對自己比較有利,也能讓學校真正招收到所希望招收到的學生。而學校在公布成績的辦法使用時,也應當提供學生關於學校特性的相關資訊,例如治學理念、特色、交通、師資等資訊,讓學生在申請時可以一並納入考量。除此之外,學校在使用分數時也應當對分數的意義有所了解。就基本學力測驗分數在統計上的意義而言,同一科目分數相差3分的兩個人,其能力會有差異的可能率是68%,表示這兩人能力相同的可能性還是有32%。若是分數相差愈少,能力是不相同的可能性就更低了。因此,當學生的分數差異很少時,學校最好考慮輔以其他的評量來幫助篩選學生,如此對學生與學校而言才是比較公平的。
※(一)同分的人會不會太多?以此分數來選人或分發會不會有困難?
教育部發布「九十年國民中學學生基本學力測驗的實施內容」,基本學力測驗是用來作為全國高中、高職、五專篩選學生的依據之一。所以測驗的編製與題目難度的分布應當以能符合基本學力的精神以及大多數學校的需求為主,不應為了部分學校的特殊需求而使測驗的方向有所偏差。以基本學力測驗每科為1-60分而言,五科加總為5-300分,共296個分數類別。若以每年30萬國中畢業生全部參加本測驗來計算,平均每個類別約有1014人(實際上,根據人的能力大致成常態分布的情況來看,中等能力者的人數較多,高能力者與低能力者的人數較少,因此高分者與低分者每個分數類別的人數應當會低於1000人)。再考慮有些學校若對部分科目進行加權,所產生的分數類別就更多了,每個分數類別的人數就更少了。再加上並非所有國中畢業生都是依據基本學力測驗來進行分發入學,還有其他五個入學管道,因此每個分數類別的人數又降低了。所以對高能力與低能力者而言,同分者並不會太多。雖然對中等能力者而言,同分的人數較多,但是以中等能力為標準來篩選學生的學校數量也會比較多,因此分發時應當不會有太大的困難。
※(二)基本學力測驗會不會太簡單?會不會造成高分者太多,降低測驗的鑑別力?
曾有部分學校認為基本學力測驗的題目可能會太簡單,將導致分數的極端化,得滿分的人可能會很多,降低測驗的鑑別力。這樣的疑慮主要是將「基本」與「簡單」的概念混淆了。基本學力測驗中所測量的「基本學力」是指學生在經過國中三年的學習後所應當具備的基礎的、核心的、重要的知識與能力。並不是指簡單的知識與能力。至於哪些知識與能力是基本的?主要是根據研究群會同多位學科專家與教師對國民中學階段的教育目標與課程內容仔細的討論評估後所定出來的。雖然我們在宣導時曾以大約50%-75%左右的人能答對的題目來說明基本學力測驗題目的大致難度範圍,但這只是我們對測驗題目難度的推估值,對於概念被大多數學科專家與教師認為是基本而難度較高的題目我們並不排除。而此難度推估值也不代表有1/2至3/4的人會得滿分,因為每個人會答對或答錯的題目並不相同。