Thế nào là một phổ điểm đẹp?

    0
    330

    Kết thúc kỳ thi “2 trong 1”, Bộ Giáo dục và Đào tạo đã thực hiện một việc rất đáng hoan nghênh, đó là công bố phổ điểm các môn thi. Đây là việc đáng ra Bộ phải làm từ lâu, nhưng không hiểu sao, trong suốt nhiều năm tổ chức thi ba chung, Bộ chưa bao giờ thực hiện được điều này. Tuy vậy, sau khi đã công bố, thì một câu hỏi lại được đặt ra cho giới chuyên môn, các phổ điểm đó nói lên điều gì?

    It can be said that in “2 in 1″ exam, the Ministry of Education and Training of Vietnam has done a very a very laudable job which is announcing the spectrum of the exam. This is supposed to be done by the Ministry for a long time, but somehow, over the years implementing “three shared” exam, the Ministry has never done this. However, after the announcement, a question was posed to the experts, what does the spectrum mean to us?

    Liệu chúng ta có thể rút kinh nghiệm được gì từ các phổ điểm đó? Hay một cách khái quát, thế nào là một phổ điểm đạt yêu cầu, một phổ điểm đẹp? Bài viết này cố gắng đưa ra lời giải cho những thắc mắc trên.

    Trước khi có thể trả lời đích xác, một phổ điểm có được gọi là đẹp hay không, chúng ta cần biết câu trả lời cho câu hỏi: bài thi (mà kết quả là phổ điểm đó) có mục tiêu như thế nào?

    Về mặt lý thuyết, bất kỳ bài thi nào cũng chỉ có một trong hai mục tiêu: (1) để phân loại trình độ/năng lực giữa các thí sinh với nhau hoặc (2) để kiểm tra, đánh giá thí sinh theo một chuẩn đã được định sẵn. Bài thi cho mục đích (1) là bài thi đánh giá tương đối (norm referenced test – NRT) và bài thi phục vụ mục đích (2) là bài thi đánh giá theo chuẩn (criterion referenced test – CRT). Những khái niệm này được TS Robert Glaser (1921-2012) giới thiệu và phát triển, và lịch sử của nó gắn với việc thực thi Đạo luật No Child Left Behind (Không bỏ rơi một trẻ em nào) của Mỹ– đạo luật hướng tới việc đảm bảo mọi trẻ em đều được đi học trong những năm 1980.

    Bài thi đánh giá tương đối (NRT)

    NRT là hình thức thi cổ điển, đã xuất hiện cùng với lịch sử thi cử của loài người từ hàng nghìn năm nay. Mục tiêu cao nhất của NRT là so sánh trình độ/năng lực của các thí sinh với nhau. Kết quả của nó được dùng làm căn cứ đầu vào cho một hoạt động giáo dục tiếp theo như: xét đỗ/trượt, trao giải/không trao giải… Khi nói đến NRT thì ngoài điểm tuyệt đối, chúng ta còn có thể quan tâm đến các nội dung khác như thứ hạng của thí sinh (ví dụ xếp hạng thủ khoa hay á khoa) hoặc tỷ lệ % của kết quả thi (ví dụ thí sinh A đạt kết quả nằm trong nhóm 2% thí sinh có kết quả thi tốt nhất). Về mặt nội dung, vì NRT chú trọng việc phân loại trình độ giữa các thí sinh nên độ khó của câu hỏi thi có thể trải dài từ dễ đến khó. Mỗi nội dung kiểm tra năng lực/kỹ năng thường được thể hiện qua một số ít câu hỏi (tối đa là bốn) để dành “đất” cho việc kiểm tra các năng lực/kỹ năng khác.

    Phổ điểm lý tưởng của bài thi theo hình thức NRT là hình “quả chuông” (bell curve), hay theo phân phối chuẩn (normal distribution) như ngôn ngữ của thống kê học (xem Hình 1) vì đồ thị hình quả chuông thể hiện sự phân loại rõ ràng các nhóm trình độ (rất kém – kém – trung bình – khá – giỏi – rất giỏi). Phổ điểm có thể theo hình một quả chuông có độ dốc vừa phải (đường màu đỏ) hay dốc (màu xanh lơ) hay thoải (màu lá cây) hay có tâm dịch sang trái (màu tím) tùy thuộc vào mục tiêu, mục đích của kỳ thi. Những người ra đề có kinh nghiệm sẽ kiểm soát và dự tính được độ dốc của quả chuông trước khi kỳ thi bắt đầu.

    pho diem dep 1

    Hình 1: Phổ điểm lý tưởng của bài thi theo hình thức đánh giá tương đối NRT

    Bài thi nổi tiếng nhất theo hình thức NRT trên thế giới hiện nay có lẽ là bài thi SAT (Scholastic Assessment Test) do tổ chức College Board phát triển từ năm 1926 và được hàng nghìn trường đại học, cao đẳng tại Mỹ lựa chọn để làm căn cứ tuyển sinh hằng năm.
    Đề thi đại học của Việt Nam theo hình thức ba chung năm ngoái trở về trước về cơ bản được thực hiện theo hình thức NRT. Tuy vậy, điểm khác biệt giữa hai bài thi là ở chỗ trong khi SAT là kỳ thi “tiêu chuẩn” (standardized) thì ba chung lại không. “Tiêu chuẩn” hay “không tiêu chuẩn” ở đây là một hình thức phân loại khác của thi cử. Một cách đơn giản, kỳ thi “tiêu chuẩn” được hiểu là có thể tổ chức nhiều lần nhưng vẫn đảm bảo với mức độ tin cậy để chắc chắn hai thí sinh (giả thiết có trình độ như nhau) thi ở hai lần khác nhau thì đều đạt kết quả thi tương tự. Với thi ba chung trước kia, một thí sinh làm đề khối A của đề thi năm 2009 được 25 điểm; nhưng có khi ngay sau đó cho làm đề thi của năm 2011 lại có thể chỉ được 20 điểm. Đó là dấu hiệu cho thấy “ba chung” không phải là một kỳ thi “tiêu chuẩn”. Trong kỳ thi đại học năm nay, kỳ thi đánh giá năng lực của ĐH Quốc gia Hà Nội và của ĐH FPT có thể xem là các kỳ thi vừa là NRT, vừa là tiêu chuẩn (phổ điểm thi hình chuông và kết quả thi ở các lần khác nhau đều được tính có giá trị tương đương – ĐH Quốc gia Hà Nội tổ chức hai kỳ, ĐH FPT tổ chức ba kỳ thi năng lực trong mùa thi năm nay, các thí sinh có điểm giống nhau sẽ được hưởng chính sách tuyển sinh như nhau, dù tham gia thi vào các thời điểm khác nhau).

    Bài thi đánh giá theo tiêu chuẩn (CRT)

    Khác với NRT, CRT không có mục đích so sánh giữa các thí sinh với nhau (và tất nhiên là sẽ không có thứ hạng, tỷ lệ % của thí sinh đó) mà nhằm so sánh trình độ, năng lực của thí sinh với một chuẩn đã định sẵn. Chuẩn này cần được xác định trước đó bởi một hội đồng chuyên môn trong ngành, lĩnh vực, trong đó nhiệm vụ là phải xác định và lượng hóa được chi tiết từng yếu tố về năng lực, kỹ năng của ứng viên. Về mặt nội dung, CRT tập trung vào kiểm chứng từng năng lực, kỹ năng so với tiêu chuẩn của thí sinh và vì vậy, mỗi nội dung đánh giá năng lực/kỹ năng thường được thể hiện qua tối thiểu bốn câu hỏi với độ khó tương tự nhau để kiểm tra sự nhất quán của thí sinh trong việc trả lời câu hỏi liên quan đến năng lực/kỹ năng đó.

    CRT có lịch sử gắn với các bài thi nhằm cấp chứng chỉ hành nghề như lái xe, phiên dịch, kiểm soát viên… Tuy vậy, trong những năm gần đây, CRT đang có xu hướng thâm nhập vào giáo dục chính thống (phổ thông, đại học) để trở thành cách đánh giá chủ đạo trong nhà trường. Cũng như phần nhiều cuộc cải cách giáo dục khác diễn ra trên thế giới, Mỹ cũng lại là nước đi đầu trong việc này với công cuộc cải cách giáo dục từ những năm 1980.

    Phổ điểm lý tưởng của CRT là hình chữ J với một số ít thí sinh trượt, còn phần lớn thí sinh đều vượt qua ngưỡng tiêu chuẩn định trước (xem Hình 2: ví dụ về phổ điểm của một bài thi theo CRT, trong đó ngưỡng tiêu chuẩn là 9/10 điểm).

     

    pho diem dep 2

    Hình 2: Phổ điểm lý tưởng cho bài thi theo hình thức đánh giá theo tiêu chuẩn CRT

    Phổ điểm của “2 trong 1” như thế nào là đẹp?

    Quay trở lại với kỳ thi THPT năm nay, chúng ta hẳn còn nhớ cả một thời gian dài trước khi phương án cuối cùng được chốt, báo chí đã tốn rất nhiều giấy mực để tranh luận, phân tích xem giữa hai lựa chọn, bỏ thi THPT và bỏ thi đại học thì nên bỏ kỳ thi nào. Phương án cuối cùng được chọn có vẻ như là một giải pháp trung gian với 60% câu hỏi cho mỗi bài thi được dành cho mục đích thi THPT, 40% câu hỏi còn lại được dành cho mục đích thi đại học1.

    Nếu xem mục tiêu thi THPT nhằm mục đích đánh giá học sinh theo tiêu chuẩn đầu ra đã được định sẵn; còn thi đại học nhằm mục tiêu phân loại trình độ học sinh thì phổ điểm lý tưởng của phần “60% thi THPT” sẽ có dạng hình chữ J (bài thi CRT) và phần “40% thi đại học” sẽ có dạng hình quả chuông (bài thi NRT) như trình bày ở trên. Ghép hai phần phổ điểm này, chúng ta sẽ được phổ điểm hình quả chuông với “đỉnh chuông” nằm ở điểm 7-8, trong đó 5-6/6 điểm cho phần thi THPT và 2/4 điểm cho phần thi đại học (xem Hình 3).

     

    pho diem dep 3

    Hình 3: Phổ điểm lý tưởng của kỳ thi “2 trong 1” năm 2015

    Đối chiếu phổ điểm lý tưởng này với kết quả phổ điểm mà Bộ công bố, có thể thấy, phổ điểm môn Hóa là có hình dạng gần nhất với phổ điểm lý tưởng (phổ điểm hình chuông trong đó đỉnh chuông tại điểm 6,5); các môn Ngữ văn, Vật lý, Địa lý có phổ điểm đạt yêu cầu (phổ điểm hình chuông trong đó đỉnh chuông tại khoảng 5-6 điểm); các môn Sinh học và Lịch sử có phổ điểm chấp nhận được (phổ điểm hình quả chuông trong đó đỉnh chuông tại khoảng 4-5 điểm).

    Các môn còn lại, môn Toán có phổ điểm hình yên ngựa, môn tiếng Anh hình quả chuông lệch với đỉnh chuông tại điểm 2,5 có thể xem như không đạt yêu cầu về mặt ra đề2.

    Lựa chọn cho năm tới

    Như vậy, nhìn chung mặc dù một số môn có phổ điểm không thật đẹp nhưng vẫn có thể thấy kỳ thi “2 trong 1” năm nay tương đối thành công (nhất là khi chúng ta xét đến các yếu tố khác ngoài vấn đề phổ điểm như giảm căng thẳng, tiết kiệm nguồn lực, phát huy vai trò tự chủ của các trường…).

    Câu hỏi bây giờ có lẽ nên là, về mặt đề thi, chúng ta có thể cải thiện thế nào cho kỳ thi năm sau? Chúng ta sẽ tiếp tục giữ giải pháp “trung gian” như năm nay hay quay trở lại với lựa chọn đã được thảo luận rất nhiều trước kia: bỏ thi tốt nghiệp THPT, giữ thi đại học hoặc ngược lại?

    Thực ra, nếu nhìn vào bản chất của NRT và CRT như đã phân tích ở trên, thì lựa chọn trung gian: 60% mục đích tốt nghiệp THPT và 40% mục đích thi đại học sẽ vẫn dẫn đến kết quả là một kỳ thi theo NRT (hay một kỳ thi với mục đích là thi đại học). Điều này cũng tương tự như việc nhân một số (-) với một số (+) thì sẽ không ra một số nửa (-), nửa (+) mà kết quả phải là số (-). Thực vậy, một kỳ thi thiết kế theo cách nửa tốt nghiệp (CRT), nửa thi đại học (NRT) thì kết quả vẫn là một kỳ thi đại học (NRT), có phổ điểm dạng hình chuông; chỉ có điểm khác là hình chuông đó sẽ dịch chuyển về phía bên phải một chút (như Hình 3) hoặc như kết quả phổ điểm môn Hóa năm nay.

    Vậy thì, câu hỏi lại quay lại điểm ban đầu, giống như đúng một năm trước đây: kỳ thi năm 2016 sẽ là thi THPT hay thi đại học?

    Hai cách, suy cho cùng, đều có ưu – nhược điểm của nó. Nhưng nếu phải chọn, thì người viết bài này thiên về cách chọn: bỏ thi đại học, tổ chức thi THPT (theo CRT). Bởi với cách dạy, học, thi theo chương trình phổ thông hiện tại, chúng ta không thể tin tưởng kết quả đầu ra của học sinh sau 12 năm học sẽ là theo một chuẩn như nhau trên khắp 64 tỉnh thành trên cả nước. Một kỳ thi đánh giá theo một chuẩn chung nhằm đảm bảo điều này là vô cùng cần thiết.

    Cách ngược lại cũng có thể áp dụng, nhưng phải là trong nhiều năm tới, một khi Chương trình giáo dục tổng quát (mới được Bộ ban hành Dự thảo) đưa vào áp dụng và chứng minh thành công.

    ——–

    1http://vnexpress.net/tin-tuc/giao-duc/tuyen-sinh/thu-truong-giao-duc-de-thi-thpt-quoc-gia-co-60-cau-hoi-co-ban-3241101.html

    2 Trong bài này chúng ta không xét phổ điểm các môn ngoại ngữ khác như tiếng Trung, tiếng Nga… vì số lượng thí sinh quá ít. Vấn đề phổ điểm giật cục (một số điểm có tần suất đột nhiên cao lên) cũng không xét đến vì nguyên nhân chuyển thang điểm (ví dụ từ 50 xuống 10 điểm) đã được một chuyên gia khác giải thích rất rõ tại đây: http://giaoduc.net.vn/Giao-duc-24h/TSLe-Truong-Tung-Kieu-lam-tron-diem-cua-Bo-hai-den-quyen-loi-thi-sinh-post160444.gd

     Phạm Hiệp

    Nguồn: http://tiasang.com.vn/Default.aspx?tabid=113&News=8947&CategoryID=6

    NO COMMENTS