LA INTELIGENCIA ARTIFICIAL COMO HERRAMIENTA DE APOYO A LA EDUCACIÓN EN ANDALUCÍA
Ingeniero en Informática. Trabajando en desarrollo de Sistemas de Información y software para la gestión educativa desde hace más de 24 años y Jefe del Servicio de Sistemas de Información e informática y Sistemas Digitales desde hace más de 14 años en la Consejería de Educación de la Junta de Andalucía.
@pacosilve
La inteligencia artificial (IA) es una tecnología que está transformando muchos aspectos de la sociedad, incluyendo la educación [1] Los avances en IA están permitiendo una mayor interacción entre el profesorado y el alumnado, y están mejorando la capacidad de los docentes para personalizar la enseñanza y proporcionar un aprendizaje más efectivo. En estos últimos meses estamos viviendo una verdadera explosión mediática de la Inteligencia Artificial con la aparición de múltiples herramientas basadas en Inteligencia Artificial Generativa (GAI), campo del Machine Learning moderno que da lugar a sistemas capaces de generar cualquier tipo de contenido como audio, imágenes, texto, objetos 3D, videos y mucho más.
Diferentes empresas y organizaciones han implementado herramientas basadas en esta tecnología, ya sea para la generación de imágenes como Dall-E o Stable-Difussion [2 Y 3] o para la generación de textos como la ya muy conocida ChatGPT [4]. Todos ellos son sistemas diseñados para generar datos que se parezcan a los datos de entrenamiento que se les proporcionan. En otras palabras, las GAI son capaces de crear nuevos datos que parecen haber sido producidos por humanos o por alguna otra fuente, a partir de patrones que encuentran en los datos de entrenamiento [5]. Aunque estas IA se están haciendo muy populares, también hay muchos otros tipos de inteligencias artificiales diferentes, aparte de las generativas, como son las Redes neuronales, Aprendizaje por refuerzo, Aprendizaje supervisado, Aprendizaje no supervisado o Procesamiento del lenguaje natural (NLP).
En este punto, vamos a poner el foco sobre el Aprendizaje Supervisado, que es un tipo de aprendizaje automático o Machine Learning (ML) en el que el algoritmo se entrena con un conjunto de datos etiquetados [6]. Se utiliza para tareas como la clasificación y la regresión.
En el ámbito educativo, la analítica predictiva basada en aprendizaje supervisado puede utilizarse como herramienta para ayudar al profesorado a mejorar la enseñanza del alumnado. Por ejemplo, los sistemas de IA de aprendizaje supervisado pueden analizar los resultados de las evaluaciones y proporcionar al profesorado información sobre las fortalezas y debilidades de cada estudiante, lo que les permite personalizar su enseñanza para atender a las necesidades individuales de cada uno.
Por otro lado, el aprendizaje automático no supervisado puede utilizarse para ayudar al profesorado a identificar patrones en el comportamiento de los estudiantes y a predecir su rendimiento. Esto puede ayudar a los profesores a tomar decisiones informadas sobre cómo mejorar la enseñanza y a intervenir de manera oportuna si es necesario.
-
La mina de oro de datos en la educación andaluza: Séneca.
Bajo el contexto de que la analítica predictiva es una herramienta poderosa que ayuda a tomar decisiones informadas, basadas en patrones y tendencias históricas, la calidad de los datos constituye uno de los factores de mayor influencia. Una buena base histórica de datos y una normalización, estandarización y categorización de estos, son fundamentales para que la IA de analítica predictiva tenga éxito. Si los datos están incompletos, inexactos o desactualizados, los resultados de la analítica predictiva pueden ser imprecisos o incluso engañosos. Además, los datos de baja calidad pueden conducir a decisiones equivocadas, lo que puede tener consecuencias graves para un organismo en su toma de decisiones.
Por el contrario, una buena base histórica de datos permite a los analistas y científicos de datos identificar patrones y tendencias que pueden ser utilizados para predecir el comportamiento futuro, y por otro lado puede ayudar a identificar y corregir errores en los datos, antes incluso, que afecten las decisiones educativas. Estos errores pueden ocurrir también en el mundo de la educación cuando se analizan series históricas y se ven afectadas las formas de evaluar al alumnado por los cambios de las leyes educativas . En este punto es donde cobra una importancia esencial el sistema de información Séneca[7].
En el marco de referencia de la Comunidad Autónoma de Andalucía, el Sistema de Información Séneca de la Consejería de Desarrollo Educativo y Formación Profesional, es una plataforma que tiene ya más de 20 años. Se caracteriza por disponer de una base de datos centralizada y única, de información educativa, altamente normalizada y que abarca multitud de espectros de la gestión de los centros y el alumnado: desde la parte académica, siguiendo por otros aspectos del seguimiento educativo como puede ser el absentismo, abandono, la orientación educativa y otros factores de participación, becas y ayudas o convivencia escolar. Séneca inició su implantación en 2002 y desde 2004 ya estaba establecido como herramienta de gestión en todos los centros con enseñanzas de infantil a bachillerato, por lo que, es una fuente de información altamente fiable para realizar análisis predictivo de cualquier parámetro o aspecto educativo. A título de ilustrativo, Séneca dispone de toda la información académica de más 3,9 millones de alumnos y alumnas que están o han estado en el sistema educativo en estos 20 años, la tabla de calificaciones de alumnado dispone de 825 millones de registros y la tabla de ausencias del alumnado, de unos 711 millones de registros. Con estos volúmenes de datos y con estas series históricas, los científicos de datos consideran esta información como una verdadera mina de oro de datos para poder hacer multitud de análisis predictivos.
-
El proyecto Hipatia. La Analítica predictiva en la Administración Educativa Andaluza.
En el contexto de todo lo anterior, en 2019 la Consejería de Educación inicia un proyecto para el diseño y construcción de una infraestructura de gobierno del dato con la implantación de un “big data lake educativo” y la instalación de unas plataformas y herramientas que faciliten el uso de tecnologías de analítica predictiva. Este proyecto, llamado “Hipatia – Herramienta de Información Predictiva y Análisis y Tratamiento de datos con Inteligencia Artificial” y cofinanciado con Fondos FEDER y adjudicado a dos empresas andaluzas, Ayesa AT y Datrik Intelligence para la parte de IA y a NTT-Data para la Infraestructura y Gobierno del Dato, se inició con un piloto de estudio anonimizado de abandono y posteriormente con un análisis y planteamiento de diferentes casos de uso para su posterior implantación.
El piloto de abandono ya abrió la luz a una primera experiencia en la que se establecieron los objetivos básicos del estudio (entre los que destacan identificar los factores que correlacionan con el abandono escolar y conocer las variables que mantienen al alumnado comprometido con el aprendizaje), se realizó una fase de recogida de variables iniciales y ampliación de variables y por último se realizó un “Análisis exploratorio de datos” y consecuentemente la “Implementación de modelos machine learning”. Con todo esto se realizaron los contrastes de resultados de los distintos modelos y como producto se elaboró una herramienta de análisis de abandono.
De estas fases, cabe destacar que se obtuvieron alrededor de 150 variables de una población de unos 370 000 alumnos y alumnas matriculados en algún curso de la ESO, disponiendo de la trazabilidad de los mismos desde que iniciaron 1.º de primaria.
Tras la selección del universo y las variables del estudio, se llevó a cabo una depuración de las mismas y un análisis exploratorio de datos. Durante este proceso, a partir de las 150 variables iniciales se generaron variables adicionales, llegando hasta un total de 430. Estas nuevas variables fueron construidas basándonos en la reelaboración de información existente, bien mediante contraste con información de dominio público (extraída de fuentes con el Instituto de Estadística y Cartografía de Andalucía) o bien como resultado de relaciones entre las variables iniciales.
Tras este paso se implementaron varios modelos analíticos avanzados de predicción de abandono, comparándose sus resultados. Una vez seleccionado el mejor modelo predictivo, se elaboró un modelo de generación de datos de abandono, que permite generar predicciones sobre cualquier alumno o alumna perteneciente al sistema educativo andaluz.
Como conclusión a este proyecto piloto, se ha evaluado el alto valor que puede aportar una herramienta entrenada como esta al sistema educativo, siempre y cuando se implanten previamente todas las medidas que requiere el RGPD, sobre todo la “Evaluación de Impacto relativa a Protección de Datos”. Como curiosidad del modelo predictivo, se destacó cuál es el cóctel de variables más influyentes sobre el abandono escolar de un alumno o alumna, y que en la actualidad son: la edad de los tutores legales en el rango de 25 a 30 años, el número de suspensos del curso actual o pasado y la reiteración de faltas de asistencia, obteniendo capacidades de predicción cercanas al 93 % de acierto para el alumnado de 4.º de ESO.
Posteriormente al proyecto piloto, se ha desarrollado una consultoría de casos de uso reales susceptibles de aplicar al sistema educativo, de los cuales se han explotado una serie de proyectos aprovechando que ya se dispone de una infraestructura preparada para nuevas analíticas predictivas. Todos estos casos desarrollados hasta ahora han sido bajo la tesis inicial de datos absolutamente anonimizados al ser conscientes de la importancia del RGPD y todos los requisitos que exige este reglamento para el uso de datos personales, como se profundiza al final de este artículo. Esto ha sido una premisa esencial para el desarrollo de dichos casos de uso.
Así, con la base de este proyecto piloto se iniciaron posteriormente otros proyectos.
El primero fue el “Estudio del comportamiento de la promoción/repetición del alumnado para cada nivel de cada centro educativo para la predicción de las unidades necesarias para el curso siguiente”. En este proyecto se consiguió desarrollar un modelo de predicción de la evolución académica del alumnado en cada una de las enseñanzas, con el objetivo de obtener, para un alumno matriculado en una enseñanza y curso escolar concretos, un modelo capaz de dar una probabilidad asociada a cada una de las opciones de evolución de ese alumno para el curso siguiente, las cuales varían dependiendo de la enseñanza. Con estas probabilidades a nivel de alumno, junto con sus intervalos de confianza, lo que se quiere en última instancia es estimar, para cada centro, el número de alumnos que se van a matricular en cada una de las enseñanzas ofertadas en el curso siguiente, lo que serviría para planificar de manera sencilla el número de unidades necesarias en cada centro.
El segundo proyecto que se ha desarrollado ha sido “Análisis y predicción de la plantilla de funcionamiento más acertada de cada centro educativo para un determinado curso.”
Este proyecto se enmarcó en la realización de un modelo de predicción cualitativa y cuantitativa de la plantilla docente del próximo curso para los centros de secundaria y C.P.I.F.P. Esto es, interesaba predecir el número de profesores de cada especialidad (un total de unas 400 posibles) que prestarán sus servicios en el curso siguiente en cada centro para ESO, Bachillerato y FP. El principal objetivo es que el resultado de la predicción sirva como plantilla de partida a iterar, con posterioridad, en los centros educativos y las delegaciones provinciales en junio.
El tercer proyecto, que se encuentra en fase de finalización, ha sido “Análisis y predicción de Escolarización en Ciclos Formativos.” El objetivo, en este caso, ha sido obtener modelos para tres grandes grupos diferenciados: 1º curso de FP de Grado Medio y Superior, oferta completa presencial de Formación Profesional Básica y procesos de escolarización con una sola convocatoria y adjudicación. En función del periodo de escolarización se pretende, a futuro, ofrecer información al alumno en forma de probabilidad de admisión para cada oferta disponible, ayudándolo así a la creación de una lista de peticiones y a decidir si se matriculan de esa oferta o hacen una reserva de plaza y esperan a la siguiente adjudicación, ofreciendo las probabilidades de admisión de cada una de las opciones del alumno.
Cabe destacar que este modelo ya se encuentra implantado en Extremadura desde hace varios años ofreciendo al alumnado, en el momento de presentar su solicitud de admisión o reserva de plaza, un asesoramiento predictivo de posibilidades de obtención de una plaza.
Independientemente de estos proyectos, hay otros proyectos surgidos del análisis de consultoría inicial de Hipatia que se han catalogado como posibles propuestas de futuro y que son susceptibles de ser desarrollados como herramienta de mejora de la gestión educativa, entre ellos, “Asistente de ayuda al docente para la acción tutorial”, sistema de recomendación para sugerir qué estudios seguir tras la enseñanza obligatoria.
-
La IA y la normativa de protección de datos.
Además de ser una herramienta valiosa para la enseñanza, es importante tener en cuenta que el uso de la IA en el ámbito educativo también conlleva responsabilidades y preocupaciones legales. En la Unión Europea, la normativa determinante en este contexto es el Reglamento General de Protección de Datos (RGPD) y a nivel estatal la transposición de este reglamento en la Ley Orgánica de Protección de Datos y Garantía de Derechos Digitales (LOPDGDD)
El RGPD establece en su artículo 22 el consentimiento explícito de los titulares de los datos o de sus tutores legales, para los tratamientos automatizados y de elaboración de perfiles.
También bajo este marco normativo aparece la figura del tratamiento y su catalogación en el Registro de Actividades de Tratamiento donde figuran todas las actividades sometidas a tratamiento de datos, los responsables y encargados de dichos tratamientos, finalidades y otra información de carácter obligatoria como pueden ser las cesiones de estos datos. Dicho Registro a nivel de Junta de Andalucía se encuentra publicado en internet [8].
De la misma forma, y en cumplimiento de dicha norma, la Consejería dispone de la figura orgánica del Delegado de Protección de Datos de Educación para todos los centros educativos, que es la persona encargada de proporcionar asesoramiento e información en materia de protección de datos al responsable o al encargado del tratamiento, supervisar el cumplimiento del RGPD y asesorar en relación con las Evaluaciones de Impacto, en el contexto de la administración educativa y en los centros.
Atendiendo al enfoque puramente normativo, el RGPD incorpora la obligación para los responsables de tratamiento: evaluar el impacto de las operaciones de tratamiento en la protección de los datos personales, cuando sea probable que el tratamiento suponga un riesgo significativo para los derechos y las libertades de las personas teniendo en cuenta la naturaleza, alcance, contexto y fines de dicho tratamiento de datos.
La Evaluación de Impacto relativa a Protección de Datos (EIPD) [9] es un procedimiento que busca identificar y controlar los riesgos y, en definitiva, los datos personales que están expuestos y se encuentran bajo su responsabilidad. En el caso educativo, las actividades de tratamiento consisten principalmente en la extracción, transformación y uso de datos personales, tanto de alumnado como de docentes de los centros y de los servicios educativos dependientes de la Consejería, con un objetivo concreto. como puede ser la planificación de plantillas o de unidades, o una predicción de la mejor opción al solicitar un ciclo formativo
En la EIPD se debe analizar el ciclo de vida de la información y el flujo de datos propio del tratamiento, identificando las actividades específicas realizadas en cada fase del tratamiento, los datos tratados, los intervinientes en el proceso, así como las tecnologías implicadas. Asimismo, se debe determinar la necesidad y proporcionalidad del tratamiento y se deben identificar los riesgos asociados al mismo. De todo ello, se debe desprender un plan de acción con una serie de medidas que sean necesarias aplicar para disminuir el riesgo actual y poder demostrar que se garantizan los derechos y libertades de las personas y la seguridad de los datos en el normal desarrollo de la actividad.
Siempre debe tenerse en cuenta que el riesgo cero no existe, por lo que las medidas de control propuestas en la EIPD tienen como objetivo minimizar el riesgo asociado al tratamiento hasta un nivel aceptable del riesgo.
En cualquier caso, cabe destacar que la EIPD es un proceso continuo que no se agota con la elaboración de dicho documento, ya que, como bien establece el RGPD en su artículo 35.11, deberá revisarse que el tratamiento sigue siendo conforme con la EIPD y, en todo caso, revisarlo de nuevo cuando exista un cambio sustancial en alguna de las operaciones de tratamiento.
Por último y en este contexto normativo, cabe reseñar que el Consejo de la Unión Europea está avanzando en una propuesta de Reglamento de inteligencia Artificial encaminado a garantizar que los sistemas de inteligencia artificial (IA) introducidos en el mercado de la UE y utilizados en la Unión sean seguros y respeten la legislación vigente en materia de derechos fundamentales, así como los valores de la Unión [10].
-
Conclusiones
En conclusión, la inteligencia artificial puede ser una herramienta valiosa para ayudar al profesorado a mejorar la enseñanza de su alumnado, puede ser útil a las propias administraciones educativas para evaluar el impacto de sus políticas, y puede predecir comportamientos de las familias ante de futuras medidas educativas. Sin embargo, desde el punto de vista de la profesión docente, es importante utilizar la prospección de manera responsable y en conjunto con otras estrategias pedagógicas y organizativas efectivas para garantizar una educación de calidad para todo el alumnado.
El uso de la IA en el aula puede ser un elemento de apoyo para mejorar la enseñanza, pero es importante asegurarse de que se cumpla con la normativa en materia de protección de datos y se respete la privacidad y los derechos del alumnado. El profesorado y la administración educativa deben ser conscientes de estas responsabilidades y tomar las medidas necesarias para garantizar un uso ético y respetuoso de los datos personales de los estudiantes.
Otro factor importante para que la IA llegue al día a día del aula y esté integrada en las herramientas de uso habitual del profesorado como puede ser Séneca, es el grado de madurez de la organización, lo que implica suplir el déficit de la cultura del dato entre sus gestores y sus unidades organizativas y la necesidad de un proceso de gestión del cambio en la organización centrado en hacer ver el potencial, a través de la IA, para predecir o prospectar tendencias, comportamientos o evolución educativa y a la importancia del RGPD como garante de estas tecnologías ante el individuo sobre el que se realiza el tratamiento, en nuestro caso el alumnado o el profesorado.
En este contexto, la Junta de Andalucía creó en 2021 un nuevo ente llamado la Agencia Digital de Andalucía (ADA) que define en sus estatutos de creación como una de sus finalidades: “La coordinación y ejecución de la planificación estratégica en materia de inteligencia artificial y otras tecnologías habilitadoras para la transformación digital” [11]. Ya en 2022 con la participación directa de la ADA se aprueba la formulación de la Estrategia de Inteligencia Artificial 2022-2025 que marca entre sus finalidades «Promover capacidades competitivas y propias en materia de IA para Educación a todos los niveles: Primaria, Secundaria, Formación Profesional, Universidad y ciudadanía» o «Utilizar la IA andaluza como palanca de cambio en la Administración pública, que permita mejorar la competitividad en la gestión de recursos, la toma de decisión, y la agilización y mejora de servicios a los ciudadanos» [12] y que esperemos que muestre sus frutos más pronto que tarde. También alineada con esta iniciativa e impulsado también por la ADA, en septiembre de 2022 se aprueba la formulación de la Estrategia Andaluza de Administración Digital centrada en las personas 2023-2030 [13], entre cuyas finalidades se encuentra “Conseguir una Administración Pública digital que sea personalizada, proactiva, útil, simplificada, interoperable, fácil de usar, ágil y segura, que se anticipe a las necesidades de la ciudadanía y que le proporcione la información sin necesidad de solicitarla, gracias, entre otras, a la aplicación de tecnologías como la automatización y minería de procesos, el BigData o la inteligencia artificial”.
NOTA: La Consejería con las competencias en Educación en Andalucía se llama en la actualidad Consejería de Desarrollo Educativo y Formación Profesional.
Bibliografía y enlaces relacionados
[1] Zhai, X., Chu, X., Chai, C. S., Jong, M. S. Y., Istenic, A., Spector, M., … & Li, Y. (2021). A Review of Artificial Intelligence (AI) in Education from 2010 to 2020. Complexity, 2021, 1-18.
[2] Mansimov, E., Parisotto, E., Ba, J. L., & Salakhutdinov, R. (2015). Generating images from captions with attention. arXiv preprint arXiv:1511.02793.
[3] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., … & Sutskever, I. (2021, July). Zero-shot text-to-image generation. In International Conference on Machine Learning (pp. 8821-8831). PMLR
[4] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D.
(2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
[5] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D., Lowe, R., Voss, C., … & Christiano, P. F. (2020).Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021.
[6] Kühl, N., Goutier, M., Hirt, R., & Satzger, G. (2020). Machine learning in artificial intelligence: Towards a common understanding. arXiv preprint arXiv:2004.04686.
[7] Séneca. Sistema de Información de Gestión de todos los Centros Docentes de la Comunidad Autónoma Andaluza. https://seneca.juntadeandalucia.es/
[8] Registro de Actividades de Tratamiento de la Junta de Andalucía. https://juntadeandalucia.es/protecciondedatos/buscador.html y https://www.juntadeandalucia.es/protecciondedatos/detalle/390103.html
[9] La evaluación de impacto relativa a la protección de datos (EIPD): https://www.aepd.es/es/guias-y-herramientas/herramientas/gestiona-eipd
[10] Futuro Reglamento de Inteligencia Artificial: https://www.consilium.europa.eu/es/press/press-releases/2022/12/06/artificial-intelligence-act-council-calls-for-promoting-safe-ai-that-respects-fundamental-rights/
[11] Agencia Digital de Andalucía: https://juntadeandalucia.es/boja/2021/65/43
[12] Estrategia Andaluza de Inteligencia Artificial: https://juntadeandalucia.es/boja/2022/28/2
[13] Estrategia Andaluza de Administración Digital centrada en las personas: https://www.juntadeandalucia.es/boja/2022/184/1
Descargar PDF del Informe. Informe-Tendencias-ODITE-2022.pdf (7784 descargas )