評分員與評分量表間的交互作用對EFL作文評分結(jié)果與過程的影響.pdf_第1頁
已閱讀1頁,還剩363頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、要求考生寫出一個(或幾個)樣本的寫作任務,即直接寫作測試,是目前寫作測試中最為常用的方法(Weigle2002)。由于此類測試的評分涉及包含評分員、評分量表、考生、作文、寫作任務以及評分員培訓等在內(nèi)的多個因素及其交互作用(Milanovic&Saville1996:7;Weigle2002:60;Barkaoui2008:8),評分的過程和結(jié)果都常呈現(xiàn)出差異性。而在上述諸因素中,又以評分員與評分量表之間的交互作用對評分的影響最為直接。作

2、為評分過程的核心(Lumley2002:267),評分員通過與作為測試構(gòu)念的操作化定義的評分量表的交互,直接決定了某項寫作測試的實際構(gòu)念效度,并對測試的信度產(chǎn)生重要的影響。由此可見,量表與評分員之間的交互作用正是寫作測試信、效度問題的核心。然而,已有的國內(nèi)外研究尚未能夠就這一交互作用對作文評分過程和結(jié)果的影響取得共識。而現(xiàn)有的少數(shù)研究在研究方法以及研究設計上也都還存在改進的空間。因此,本研究希望通過綜合使用定性、定量的研究方法,對評分員

3、與整體以及分項評分量表之間的交互作用對評分過程和結(jié)果的影響作出進一步的說明。
  結(jié)合中國測試實踐,本研究針對大學英語六級考試(CET6)的寫作部分展開,所采用的實驗材料也來自某次CET6考試的實考作文。9名具有一定CET6作文評分經(jīng)驗的評分員,對共60份CET6實考作文使用CET6整體評分量表以及一個專為本研究所設計的分項評分量表,進行了先后兩次評分。同時為了獲得有關評分過程的實證證據(jù),所有評分員都在對其中10份作文進行評分時作

4、了有聲思維報告。此外,為了進一步了解評分員對評分量表的理解、使用以及評價,所有評分員還在完成有聲思維報告之余,參與了針對兩種量表的問卷調(diào)查和半結(jié)構(gòu)式訪談。
  由于本研究發(fā)現(xiàn)有聲思維報告的使用會對作文評分的結(jié)果產(chǎn)生一定的影響,因此對作文得分的定量分析是以兩次獨立評分(50份)的結(jié)果為依據(jù)的。為能分別從群體和個體兩個層面說明評分員與量表的交互作用對評分結(jié)果的影響,本研究同時使用了概化理論和多層面Rasch模型來對作文得分進行分析。另

5、一方面,為了能對有聲思維報告進行全面、細致的描寫,本研究根據(jù)所使用的評分量表以及具體的研究問題,建構(gòu)了專門的有聲思維報告編碼系統(tǒng)。該編碼系統(tǒng)對評分策略以及評分員的文本關注點進行了分類描寫。在此基礎之上,本研究對兩次有聲思維報告的主要編碼類別作了定量比較。同時,為了能在使用不同量表時評分員的評分策略、文本關注點,以及評分難點等方面獲得更加深入的理解,本研究還對包括有聲思維報告以及評分員對問卷調(diào)查和半結(jié)構(gòu)式訪談中相關陳述和問題等的回復進行了

6、定性的和解釋性的分析。
  對作文得分的定量分析顯示,評分員與兩類量表的交互的確對評分結(jié)果產(chǎn)生了不同的影響:
  第一,概化理論的決策研究分析顯示:在只用一名評分員的情況下,使用兩種評分量表所得分數(shù)的概化系數(shù)都未能達到0.7。但各分項分合成分數(shù)的概化系數(shù)(0.695)卻高于使用整體評分量表所得分數(shù)的概化系數(shù)(0.606)。
  第二,對比考生層面的分隔指數(shù)和信度可知,與使用整體量表相比,分項量表的使用能使評分員對考生的

7、英語寫作能力作出更加細致的區(qū)分;同時,在使用分項量表時,非擬合的考生數(shù)量也較少。這些發(fā)現(xiàn)說明,分項量表可能更適合對二語寫作能力的測量。
  第三,不同量表的使用使得評分員在嚴厲度方面發(fā)生了一定的變化。同時,盡管兩次評分時,評分員之間在嚴厲度上都存在顯著差異,但由于使用分項量表時,評分員對考生的寫作能力能作出更多層次的區(qū)分,因此與使用整體量表相比,使用分項量表時,評分員嚴厲度上的差異對考生得分的影響更小。此外,概化理論對分項量表各分

8、項分數(shù)的分析還表明,在對比較局部的語言特點,如語法和詞匯進行評分時,評分員在嚴厲度上的差異較小;而在對句子或語篇層面的文章特點,如句子結(jié)構(gòu)、連貫性和內(nèi)容進行評分時,這種差異則較大。這說明,對能被較為客觀描述的分項量表維度,如語法和詞匯,評分員能對其在理解和使用上都達到較高的一致性。
  第四,盡管在整體上,評分員在兩次評分中都實現(xiàn)了較好的自身一致性,但在使用整體量表時,有4名評分員顯示出了過度擬合的傾向,這說明他們的評分存在著一定

9、的趨中性。另一方面,偏差分析發(fā)現(xiàn),在使用分項量表時,評分員與考生之間以及評分員與量表維度之間都存在著更多的顯著交互作用??赡艿脑蚴?第一,分項量表的使用導致評分員需對作文給出多個分數(shù),從而增加了出現(xiàn)這兩類交互的機會;第二,盡管參與本研究的評分員都有較為豐富的CET6作文評分經(jīng)驗,但他們都沒有使用過分項量表。而這種對量表使用的不熟練可能給他們的自身一致性帶來了負面的影響。此外,評分員與考生之間的偏差分析顯示,兩類量表的使用導致了不同的偏

10、差交互模式。首先,使用整體量表時,評分員與能力度量值高的考生之間出現(xiàn)偏差交互的概率更高,但在使用分項量表時,他們則更容易與能力度量值低的考生出現(xiàn)偏差交互。其次,盡管在使用整體量表時,評分員呈現(xiàn)出對較高能力的考生偏嚴而對較低能力的考生偏松的趨勢,但這一趨勢在他們使用分項量表時則相對不明顯。最后,評分員在使用分項量表時,與處于能力度量值兩極的考生之間出現(xiàn)的偏差交互頻率較高,但這一趨勢在他們使用整體量表時卻不明顯。
  第五,多層面Ra

11、sch模型對評分量表使用情況的分析表明:評分員對整體量表的個別分數(shù)(11,12,13)的使用未能達到模型的預期;此外,幾乎所有相鄰分數(shù)起始值間的間隔都未能達到1.4個對數(shù)單位,即這些分數(shù)間的區(qū)別都不明顯。相比之下,分項量表全部5個維度的所有分數(shù)的使用情況都未現(xiàn)異常;此外,所有相鄰分數(shù)起始值聞的間隔也都處在1.4個對數(shù)單位到5個對數(shù)單位的合理區(qū)間內(nèi),即所有相鄰分數(shù)間都存在明顯的差別。
  以上定量分析的結(jié)果表明:在使用分項量表時,評

12、分員更容易對量表各分數(shù)作出明確的區(qū)分,而他們在嚴厲度上的差異對考生能力估計的影響也更小。更為重要的是,分項量表的使用能夠使評分員對考生的二語寫作能力作出更加細致和準確的區(qū)分。盡管在使用一名評分員的情況下,各分項維度上的信度表現(xiàn)不盡如人意,但其合成分數(shù)的信度表現(xiàn)卻接近0.7。而由于五個分項維度的全域分數(shù)間的相關系數(shù)很高,這就為將各分項得分進行合成提供了依據(jù)。雖然本研究也發(fā)現(xiàn)使用分項量表時會產(chǎn)生較多的評分員與考生以及分項維度間的交互作用,但

13、已有的研究(Engelhard1992;Weigle1998;Cho1999)表明:培訓能有效地提高評分員的自身一致性,減少評分員與考生以及分項維度間的顯著交互。因此,總的來說,本研究定量分析的結(jié)果表明,分項量表的使用對二語寫作測試的評分結(jié)果能產(chǎn)生更為有益的影響。
  另一方面,對有聲思維報告以及對評分員所進行的問卷調(diào)查以及半結(jié)構(gòu)式訪談結(jié)果的定量、定性分析則顯示:評分員與兩類量表的交互也對評分過程產(chǎn)生了不同的影響。
  第一

14、,不同量表的使用導致了評分員在評分策略使用上的差別。使用整體量表時,評分員更頻繁她使用了理解性策略,尤其是用于自我監(jiān)控的理解性策略,如對文本的閱讀,以及考慮局部語言特點的判斷性策略。同時,整體量表的使用還導致了評分員更多地使用那些能幫助他們建構(gòu)文章整體印象的評分策略,如對文章的總體印象進行明確的表達,以及對考生的語言能力以及考試策略等方面進行推測等。此外,由于評分員在區(qū)分相鄰分數(shù)上存在困難,因此他們也更頻繁地使用了考慮相鄰分數(shù)的判斷性策

15、略。而在使用分項量表時,評分員則更多地使用了判斷性策略,尤其是自我監(jiān)控的以及評判文章質(zhì)量的判斷性策略。同時,由于在使用分項量表時,評分員需要對語言使用的不同方面進行評分,這也導致了他們更頻繁地使用對錯誤分類的理解性策略。以上發(fā)現(xiàn)說明:評分量表所包含的評分方法以及關注點對于評分策略的選用有著不容忽視的影響。
  第二,不同量表的使用也導致了評分員在文本關注點方面的差別。相比使用分項量表,在使用整體量表時,評分員更多地關注了語言使用的

16、整體質(zhì)量以及非量表相關的語言特點,尤其是中式英語。同時,他們對I文章的可理解性,拼寫錯誤以及詞匯量方面的關注也更頻繁。而相比使用整體量表,在使用分項量表時,評分員則更多地關注了連貫性和語法,尤其是這兩方面的整體質(zhì)量。同時他們對內(nèi)容的完整性、句子結(jié)構(gòu)及詞匯的整體質(zhì)量以及錯誤頻率的關注也更頻繁。此外,在使用分項量表時,評分員在文本關注點上的個體差異也較小。以上發(fā)現(xiàn)說明:評分員的文本關注點受評分量表所包含的描述項以及關注點的影響。同時,由于分

17、項量表所含的描述項更為具體細致,而評分員又無需對評分標準所含各部分進行權衡以作出一項整體的評分決定(Goulden1994),因此他們在文本關注點上的個體差異也更小。此外,本研究的發(fā)現(xiàn)也說明分項量表的使用有助于將評分員的關注點更多地集中到量表所含的標準上,這主要體現(xiàn)在他們較少使用文章間比較的判斷策略以及較少關注非量表相關的語言特點這兩個方面。
  第三,盡管使用兩種量表時,評分員都在對連貫性的評分上遇到了困難,同時他們認為兩個量表

18、的描述項在精細度上也都存在缺陷,但不同評分量表的使用也導致了其他一些不同類型的評分難點。在使用整體量表時,評分員的主要難點集中在對相鄰分數(shù)以及5分和8分兩個相鄰分數(shù)段的區(qū)分,同時,在內(nèi)容、連貫性和語言等三方面有不一致表現(xiàn)的文章也給整體評分帶來了困難。而在使用分項量表時,評分員所面臨的主要評分難點則是:一,應對五個不同量表維度的評分所帶來的認知負荷;二,對各分項維度進行區(qū)分,尤其是對句子結(jié)構(gòu)和語法,語法和詞匯以及連貫性和語言質(zhì)量等維度所作

19、的區(qū)分。
  第四,根據(jù)上述評分過程的種種異同可推知評分員在與兩類量表交互時的主要特征。就評分員與整體量表的交互而言,評分員對量表的理解和使用與量表本身所規(guī)定的并不一致,同時評分員還在對量表各分數(shù)的界定上存在困難。而就評分員與分項量表的交互而言,盡管評分員對量表的使用與量表本身所規(guī)定的較為一致,但他們對量表的理解仍與量表編制者的理解存在差異。
  以上對評分過程所作的定量、定性分析表明:評分員對量表的理解和使用與量表本身所規(guī)

20、定的并不一致,且不一致的程度也因量表的不同而相異。同時,評分員與量表的交互作用不僅導致了評分策略使用上的差異,也導致了文本關注點上的區(qū)別。總的來說,盡管分項量表在使用上更為耗時,但這種量表的使用卻能減少評分員對非量表相關的語言特征的關注。同時,評分員對這類量表的理解與使用也更符合量表編制者的意圖。由此可見,分項量表的使用能對二語寫作測試的評分過程產(chǎn)生更為有益的影響。
  綜上所述,在理論層面,本研究的主要發(fā)現(xiàn)有以下啟示:首先,評分

21、員和評分量表之間存在著復雜的交互作用。一方面,評分量表所含的關注點和描述項會影響評分員對所測構(gòu)念的理解以及他們在實際評分中所依據(jù)的標準,同時,量表所含的分數(shù)數(shù)量也會對評分任務的難度以及評分結(jié)果的精確性產(chǎn)生重大的影響。另一方面,評分員在與量表的交互中也發(fā)揮著重要的作用。這是因為:第一,量表無法窮盡對文本特征的描寫,而這種描述項與文本之間的“缺口”只能由評分員來加以填補。第二,整體量表各部分的權重以及分項量表各維度間的重疊意味著兩種量表自身

22、都會給評分帶來一定程度的不確定性。而這種不確定性也只能由評分員來加以解決。第三,評分員對所測構(gòu)念的理解則又會極大地影響他們對量表的接受程度,他們對整體量表各部分所給予的權重以及他們對分項量表各維度間所存重疊的區(qū)分。
  其次,評分員與整體量表的交互作用會對寫作評分的過程與結(jié)果產(chǎn)生以下影響:第一,為了對作文作出整體評價,評分員常常使用有助于建構(gòu)對文章整體印象的策略,并會對文章的總體語言質(zhì)量進行更多的關注。第二,由于整體量表的描述項往

23、往較為模糊,而整體量表又常常缺乏對各組成部分權重的清晰規(guī)定,因此這類量表對評分員的約束力較小,這就導致了評分員會更多地使用非量表相關的評分標準,同時在對量表的使用和理解上,評分員之間也容易出現(xiàn)個體差異。這種差異性不僅反映在他們的文本關注點上,同時也反映在他們的嚴厲度上。第三,由于評分員傾向于通過關注諸如書法、拼寫錯誤以及詞匯量等明顯但較為表面的文本特征來得出對文章的整體印象,因此他們?nèi)钥赡軐崿F(xiàn)較好的自身一致性。但這種做法不僅會對測試的效

24、度產(chǎn)生負面影響,同時也可能限制評分員對量表所含各分數(shù)的使用,導致評分出現(xiàn)趨中現(xiàn)象。
  最后,評分員與分項量表的交互作用會對寫作評分的過程與結(jié)果產(chǎn)生以下影響:第一,由于分項量表要求評分員對文章質(zhì)量的某些方面進行評分,因此評分員容易加強對這些方面整體質(zhì)量的關注,并增加對判斷文章質(zhì)量以及錯誤分類策略的使用。第二,由于分項量表的描述項往往較為細致,且這類量表無須評分員對其組成部分進行權重分配,因此評分員對此類量表的理解和使用受量表本身的

25、約束更大。一方面,這會增加評分員對較為困難的分項維度(如連貫性)的關注,同時它也會減少評分員對非量表相關標準的使用。此外,這種約束還有助于保證評分員的自身一致性。第三,由于評分員自身對所測構(gòu)念的理解不同,同時他們對各分項維度間所存重疊的看法也不相同,評分員對量表的理解仍然有著明顯的個體差異。這種差異不僅影響了他們的文本關注點,同時也會加大他們在評分嚴厲度上的差別。最后,盡管分項量表的使用使得評分員出現(xiàn)了更多的與考生及分項維度間的交互作用

26、,但這類量表的使用也有助于評分員對考生的寫作能力作出更為細致的描述和更加準確的區(qū)分。
  除上述理論層面的啟示以外,’本研究的發(fā)現(xiàn)也對CET6寫作測試的評分實踐,以及對做事測試的效度研究有一定的研究方法上的啟示。簡言之,CET6作文評分需從量表制定,以及評分員培訓兩方面進行改進。而在做事測試的研究方法上,本研究的發(fā)現(xiàn)表明:首先,概化理論和多層面Rasch模型具有很好的互補性,宜同時應用于對做事測試評分結(jié)果的分析。其次,盡管有聲思維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論