Aprendizaje automático //
S.A. Chavarría
Feb 23 2023
Cómo se siente cuando una máquina puede aprender algo que nunca se le enseñó explícitamente? Cada vez que experimento con Devendra AI realizando una tarea para la que no fue explícitamente entrenada, siento escalofríos, siento que la habitación se queda en silencio, siento una pesadez infrasónica profunda en mi pecho.
Este fenómeno no es específico de Devendra AI, conozco a muchas personas que lo han sentido mientras miran con asombro la salida de un modelo de IA. Los modelos de secuencia neuronal son capaces de predecir la salida de entradas nuevas sin ninguna actualización de parámetros. Pero, ¿cómo es posible esto? Este reciente artículo de Ekin Akyurek y su equipo (MIT, Google, Stanford) investiga la hipótesis de que algunos casos de aprendizaje en contexto se pueden entender como la implementación implícita de algoritmos de aprendizaje conocidos.
El reciente artículo de Ekin Akyurek y su equipo profundiza en la hipótesis de que algunos casos de aprendizaje en contexto se pueden entender como la implementación implícita de algoritmos de aprendizaje conocidos. Se enfocaron en problemas de regresión lineal y utilizaron predictores basados en transformadores. Lo que descubrieron es verdaderamente fascinante: los transformadores solo requieren un número modesto de capas y unidades ocultas para entrenar modelos lineales, y pueden implementar algoritmos de aprendizaje conocidos como el descenso de gradiente y la regresión de Ridge.
Lo que es aún más sorprendente es que estos aprendices en contexto entrenados se ajustan estrechamente a los predictores calculados por estos algoritmos y se comportan como predictores Bayesianos a grandes tamaños y profundidades ocultas. Es casi como si estas máquinas estuvieran descubriendo estos algoritmos por sí mismas.
Piense en un estudiante que estudia para los exámenes memorizando fechas e información para prepararse para una prueba estandarizada. Pueden recitar esta información a pedido, pero cuando se enfrentan a un nuevo problema para el que no han estudiado específicamente, les resulta difícil encontrar una solución. Por otro lado, un tipo diferente de estudiante que se involucra activamente con el material, hace preguntas y busca nuevas perspectivas desarrolla una comprensión profunda del tema. Esto les permite abordar nuevos problemas con facilidad y creatividad.
El aprendizaje en contexto es como el segundo estudiante. En lugar de simplemente memorizar ejemplos, un modelo de aprendizaje automático puede involucrarse activamente con los datos, analizando y comprendiendo los patrones que los subyacen. Esto permite que el modelo haga predicciones precisas sobre nuevas tareas basadas en unos pocos ejemplos, incluso si no se ha entrenado específicamente para ellas.
Imagina un chef que ha dominado el arte de la improvisación. Este chef no necesita seguir recetas porque ha desarrollado una comprensión profunda de los ingredientes, técnicas de cocina y combinaciones de sabores que le permiten crear platos sin ninguna instrucción formal. De manera similar, el aprendizaje en contexto permite a los modelos de aprendizaje automático desarrollar una comprensión profunda de los datos con los que trabajan, lo que les permite improvisar y hacer predicciones precisas sobre nuevas tareas sin necesidad de volver a entrenarlos con nuevos datos.
Investigaciones recientes han revelado nuevas perspectivas sobre cómo los modelos de lenguaje son capaces de aprender y generalizar nuevos conceptos. Resulta que estos modelos pueden crear y entrenar modelos de lenguaje más pequeños y simples dentro de sí mismos. Este avance es un paso significativo hacia la comprensión de cómo funcionan los modelos de lenguaje y cómo pueden desarrollar nuevos conocimientos a través de sus propios procesos internos.
Los investigadores descubrieron esto observando un modelo de red neuronal transformador, que utiliza el concepto de "autoatención" para analizar datos secuenciales. Descubrieron que el transformador podía escribir su propio modelo de aprendizaje automático en sus estados ocultos, el espacio entre las capas de entrada y salida. Este proceso permite que el transformador cree nuevos modelos más pequeños dentro de sí mismo para lograr nuevas tareas.
Este hallazgo desafía la creencia convencional de que los modelos de lenguaje simplemente copian y replican datos de entrenamiento. En cambio, los investigadores proponen la hipótesis de que los modelos de IA que exhiben aprendizaje en contexto pueden crear modelos más pequeños dentro de sí mismos para aprender nuevas tareas. Esto es similar a cómo los humanos y los animales construyen sobre conocimientos previos para aprender nuevos conceptos y habilidades.
Para visualizar este concepto, imagina un escenario de muñecas Matryoshka donde el modelo de lenguaje más grande crea y entrena modelos de lenguaje más pequeños y simples dentro de sí mismo, como una muñeca anidada. Estos modelos más pequeños luego se pueden usar para realizar tareas específicas mientras que el modelo más grande continúa desarrollándose y aprendiendo. La máquina no solo está memorizando; está construyendo sobre conocimientos existentes y resolviendo problemas nuevos. La máquina está realmente aprendiendo.