¿Deberían distribuirse las calificaciones normalmente?

La distribución de las calificaciones está determinada por el desempeño de los estudiantes y el sistema de calificaciones. Hay dos formas de interpretar la pregunta:

  1. ¿El rendimiento de los estudiantes se distribuye normalmente?
  2. ¿Debería el sistema del maestro distribuir las calificaciones normalmente?

Creo que lo primero es más o menos cierto. Una distribución normal es el resultado de muchas pequeñas variaciones en las entradas sumadas. El rendimiento de los estudiantes depende de una serie de factores, que incluyen suerte, inteligencia bruta (si existe), preparación, educación, experiencia, circunstancias específicas el día del examen, etc. Esas cosas son aspectos ‘físicos’ de una gran población. , tendrá una distribución normal. Si el rendimiento del alumno es la suma de estos factores, también tendrá una distribución normal.

En cuanto a la pregunta número 2, mi respuesta es un no definitivo. Enseñar una clase no es un sistema de suma cero. Si califica a los estudiantes en una curva, su único interés es mejorar en relación con otros estudiantes de su clase. Le quitas su incentivo para mejorar su rendimiento absoluto al trabajar juntos. Esto se observa en entornos muy competitivos que se clasifican directamente en una curva: he escuchado historias sobre escuelas de derecho donde las personas se roban las notas de los demás.

Si tiene un sistema de calificación consistente que evalúa el desempeño de los estudiantes en función de un nivel absoluto y recopila los resultados de un grupo grande, aún obtendrá una distribución normal porque la cooperación grupal es solo otro factor normalmente distribuido.

Sin embargo, calificar en una curva sigue siendo una herramienta popular, ya que proporciona una respuesta a ‘¿qué tan bien hizo alguien frente a sus compañeros?’, En lo que el futuro empleador de un estudiante estará interesado. Debido a que los empleadores están interesados ​​en ello, inducirá algunas personas trabajan más duro de lo que hubieran hecho de otra manera.

No.

En primer lugar, mis clases tienen un número relativamente pequeño de estudiantes y, por lo tanto, no representan el rango de inteligencia, hábitos de estudio, preparación, etc., que se suman al rendimiento en el aula de un estudiante. En mis cursos de honor y AP, todos los estudiantes pertenecen al extremo más alto del espectro de inteligencia. En mis otras clases, el rango puede ser de débil a fuerte o de débil a medio o … Por lo tanto, una curva de distribución normal no sería apropiada para una distribución no normal de estudiantes.

En segundo lugar, enseño con el ideal que todos los estudiantes pueden hacer bien. Sí, algunos de mis estudiantes de química, física y matemáticas aprenden más fácilmente que otros. Pero supongo que todos pueden aprender y tener éxito. Muchas veces los estudiantes me sorprenden con sus logros. Por lo tanto, una curva normal que asume un rango de excelente a pobre no es lo que quiero, quiero a todos en la parte buena / muy buena / excelente de la curva.

Por lo general, hago mi calificación general a partir de un promedio ponderado de los componentes del curso, por lo que ciertamente no es aproximadamente normal. Solo hablaré sobre los puntajes de los exámenes. Al igual que muchos maestros, escribo exámenes para que el porcentaje promedio correcto esté entre los 70 y 80, lo que se ajusta a una escala de calificación de AF tradicional para las calificaciones finales del curso. En un curso introductorio de pregrado, esto a menudo resulta en una distribución sesgada un tanto a la izquierda, ya que generalmente hay dos o tres que podríamos decir que no están completamente enfocados en el curso. En la división superior y en las clases de posgrado, esa cola se acorta. Entonces, con los exámenes en el aula, rara vez veo una bonita curva de campana, y no diseño la evaluación para lograrla.

Parafraseando al prof. Malan enseñando Harvard CS50 en la Universidad de Harvard.
No , si el curso tiene como objetivo atender a estudiantes de todos los niveles, aliéntelos a enfrentar nuevos desafíos y si el sistema tiene la intención de desarrollar una cultura de explorar cursos más allá de su propio campo de concentración y áreas de interés.
http://harvardmagazine.com/2011/

Probablemente sea bueno que las calificaciones numéricas en una prueba no sean normales. Es una indicación de que la prueba realmente está probando algo. Uno de los propósitos principales de una prueba es la evaluación del estudiante. Se supone que muestra lo que los estudiantes saben sobre un tema. Se supone que distingue entre los que no lo entienden y los que sí lo entienden.

Una prueba tendrá varias preguntas y todos los estudiantes obtendrán buenos resultados en algunas y no en otras, pero se espera que haya una alta correlación entre las preguntas. Si no hubiera correlación, la suma de los puntajes para todas las preguntas en el examen se distribuiría normalmente. Pero hay una correlación, y debería ser bastante alta. Por lo tanto, los puntajes generales de las pruebas deben ser más planos que una distribución normal.

A veces verás una distribución bimodal. Eso indicaría que hay dos poblaciones de estudiantes en la clase. Puede valer la pena investigar cuáles son esas poblaciones.

En general, no, pero depende mucho de la clase y el modelo de calificación, junto con las reglas de entrada y salida.

Otras respuestas han mencionado varias buenas razones, pero permítanme descartar otra: la deserción diferencial. Considere las calificaciones finales del curso en una clase. Suponiendo que los estudiantes tengan la capacidad de abandonar la clase, sabemos que los estudiantes que obtienen una calificación baja antes de la fecha de baja tenderán a abandonar la clase. Esto significa que, en igualdad de condiciones, las personas que terminen la clase habrán estado en la parte superior de la distribución, o al menos no en la inferior.

Mis distribuciones de calificaciones finales son bastante altas, pero generalmente pierdo del 15-20% de la clase debido a las caídas. Lo logro dando una tarea calificada al principio del curso. No me salgo de mi camino para hacerlo súper difícil, pero tampoco hago golpes. Las personas que lo harían mal reciben el mensaje y lo dejan caer.

Una clase que fue un curso de encuesta realmente grande, como la introducción a la ciencia política o la psicología, tendrá una distribución de grados mucho más gaussiana, pero incluso si los criterios de selección de la universidad funcionan, la cola izquierda se recortará.

No.

A diferencia del GPA, las calificaciones individuales no son el resultado de resumir múltiples ensayos [independientes], por lo que el teorema del límite central no se aplica

Y la asignación misma de calificaciones está tan entre corchetes, que sería inusual esperar una distribución normal.

No. Hay muchos incentivos que sesgarían una distribución normal. (Manejo los certificados de Honor Roll, así que he visto MUCHAS boletas de calificaciones).

Alrededor del 8% de mis estudiantes obtienen calificaciones de A en su boleta de calificaciones.

El 8% no obtiene E directas. Por lo general, uno o dos estudiantes como máximo están cerca de eso, pero incluso ellos tienen una C en alguna parte, porque es difícil reprobar la clase de gimnasia y es difícil reprobar la materia optativa.

El estudiante con E-recto debe evitar activamente los esfuerzos útiles de TODOS los maestros, y se convocó a una conferencia de padres y maestros y director, y no tuvo éxito.

Un estudiante con calificaciones de A debe mirar el libro de calificaciones como un halcón, usar la clase con prudencia y estudiar lo suficiente para las pruebas.

Tienen uno o dos maestros exigentes para impresionar, mientras que el estudiante E tiene que fallar los estándares de ocho maestros. Obtener E’s rectas es una hazaña más impresionante y rara que obtener A’s rectas.

Otro patrón de incentivo es el límite abrupto entre dos grados que están a solo 0.1 de distancia en una escala de calificación de 100 puntos.

Tengo estudiantes todo el tiempo apresurados al final de un trimestre para pasar de C + a B-. De un B + a un A-. Les gusta la forma en que se ve el grado superior, incluso si se le asigna un signo menos, la mejor letra.

El sistema del Cuadro de Honor ALTAMENTE fomenta este comportamiento. Cualquier A en una clase cuenta para A Honor Roll (A o A-), y cualquier B es suficiente para B Honor Roll (B +, B o B-.) Un B +, incluso con 7 100A, te deja caer de A Honor Roll , así que los niños A evitan los B + a toda costa. Sin embargo, están bastante bien con una A-, ya que cuenta para el Cuadro de Honor.

Mientras tanto, todos los B-te ponen en el Cuadro de Honor B, por lo que los holgazanes con un incentivo para ganar el Cuadro de Honor dispararán por todos los B-‘. No podría importarles menos si su B se eleva a B +, ya que son las C en otras clases las que les preocupan.

Las C + son la calificación que los estudiantes trabajarán más activamente para evitar (después de quizás una E). Recibo muchos correos electrónicos de padres de la nada durante la temporada de calificaciones, cuando un niño tiene una C + y quiere una B-. Todavía no he recibido un correo electrónico de un padre preguntando cómo obtener una B hasta una B +, probablemente porque se sienten cero incentivo para hacerlo.

Hay una frecuencia de calificaciones mucho más alta que las calificaciones + , a pesar de que ocupan el mismo espacio numérico en la escala de calificación. Los estudiantes “quieren una B”, y la B- es suficiente en sus mentes.

Mientras tanto, tengo que instar repetidamente a los estudiantes con una C a trabajar para una C + , una B para que trabaje para una B + y una A- para que trabaje para una A.

Además, trabajando en contra de una distribución normal de calificaciones, el talento académico puede no distribuirse aleatoriamente en una escuela . Puede haber programas magnet, o programas para estudiantes con discapacidades de desarrollo, o programas de ESL en una escuela en particular que generen un aumento en poblaciones especiales. Estos programas crean resultados más bimodales.

Estaba en una escuela secundaria donde muchos de los estudiantes tenían bajo rendimiento (provenían de vecindarios gravemente desfavorecidos). La escuela también tenía un programa para reclutar niños dotados de todo el distrito.

La distribución de las calificaciones de esa escuela se sesgó más bajo de lo que una distribución normal podría predecir, debido al aprendizaje desfavorable del cuerpo estudiantil, pero con un pico enorme (pero pequeño, en términos de porcentaje) para promedios de calificaciones muy altos.

Tienes 500 niños que esperan un 2.0 y la oportunidad de graduarse de la escuela secundaria algún día, y 50 niños que esperan un 4.0 y sueñan con MIT. Nada normal sobre eso …

Mi escuela secundaria, por extraño que parezca, tenía más 4.3GPA (en una escala de 4.0GPA) que 3.9. Esto se debió a las muchas ponderaciones crediticias AP e IB otorgadas a los estudiantes que también trabajaron activamente para lograr un 4.0 cercano en estas clases rigurosas.

Hay una vía que causa esto:

1) Usted es un estudiante de 3.9 y acepta con gusto participar en un programa de especialidad que proporciona un aumento de calificaciones de GPA en la mayoría de sus clases tomadas en el tercer y cuarto año.

2) Usted es un estudiante 3.7 y opta por no participar en el programa, renunciando a las clases que brindan ese impulso adicional de GPA. Aceptas tu ética de trabajo 3.7 y tus 1-3 clases de AP al año. Promedio de calificaciones más bajo que el primer grupo, menos aumento de calificaciones de las clases AP que el primer grupo, y queda una brecha en la distribución de calificaciones.

No, la escuela está destinada a ser una prueba para ver si cumple con un estándar para futuros empleadores y para la sociedad en general. No les importa una mierda si usted y todos sus compañeros tuvieron una educación difícil o lo que sea.

Todo el proceso de pensamiento detrás de jugar con las calificaciones es sobre “equidad” y X% de estudiantes “aprobando”. Aprobar significa alcanzar algún umbral de conveniencia. Si no alcanzaste el umbral, entonces los extraños no deberían creer que lo hiciste. En mi universidad, por ejemplo, las calificaciones se ajustaron solo para asignaturas blandas, no para ingeniería, donde la idea de un umbral está más arraigada: si no conoce su material, las cosas se romperán y la gente incluso podría morir.

Tenga en cuenta que ningún conjunto de datos cumple con los requisitos para ser distribuidos exactamente de manera normal: la distribución normal es una herramienta matemática conveniente que nos permite hacer declaraciones simples sobre el comportamiento de los datos.

Entonces, una pregunta más apropiada sería “¿Deberían las calificaciones tener una distribución susceptible de ser descrita por” herramientas de distribución normales “?
No, no puedo pensar en una buena razón para hacer una declaración universal como esa. ¿Y qué significaría si el histograma (u otro gráfico que muestra la distribución) no es gaussiano? Luego, debe mirar los resúmenes que no sean la media y la desviación estándar, por ejemplo.
Sugeriría que si grafica los puntajes de cada examen (o tarea) en una sola clase, es mucho más importante que las formas generales de esos gráficos sean similares: si ve simetría (razonable) en varias evaluaciones pero de repente una drástica cambio de forma (asimetría severa) que tal vez desee investigar para intentar descubrir qué influyó en el rendimiento del alumno.