0
1
Matemáticas para el aprendizaje de
máquina
Romero Cahuana, Ángel Amado; Medina
Aguilar, Rosa Luz; Montoro Alegre, Edinson
Raúl; Chumpitaz Ramos, Domingo Guzmán;
Luna Valdez, Juan Honorato; Pizango Isuiza,
Olmedo
© Romero Cahuana, Ángel Amado; Medina
Aguilar, Rosa Luz; Montoro Alegre, Edinson
Raúl; Chumpitaz Ramos, Domingo Guzmán;
Luna Valdez, Juan Honorato; Pizango Isuiza,
Olmedo, 2026
Primera edición (1.ª ed.): febrero, 2026
Editado por:
Editorial Mar Caribe ®
www.editorialmarcaribe.es
Av. Gral. Flores 547, 70000 Col. del
Sacramento, Departamento de Colonia,
Uruguay.
Diseño de carátula e ilustraciones: Luisa
Fernanda Lugo Rojas
Libro electrónico disponible en:
https://editorialmarcaribe.es/ark:/10951/is
bn.9789915698748
Formato: Electrónico
ISBN: 978-9915-698-74-8
ARK: ark:/10951/isbn.9789915698748
Editorial Mar Caribe (OASPA): Como miembro de la
Open Access Scholarly Publishing Association,
apoyamos el acceso abierto de acuerdo con el código
de conducta, la transparencia y las mejores prácticas
de OASPA para la publicación de libros académicos
y de investigación. Estamos comprometidos con los
más altos estándares editoriales en ética y
deontología, bajo la premisa de «Ciencia Abierta en
América Latina y el Caribe»
Editorial Mar Caribe, firmante 795 de 12.08.2024
de la Declaración de Berlín
"... Nos sentimos obligados a abordar los retos de Internet
como un medio funcional emergente para la distribución
del conocimiento. Obviamente, estos avances pueden
modificar significativamente la naturaleza de la
publicación científica, así como el actual sistema de
garantía de calidad...." (Max Planck Society, ed. 2003,
pp. 152-153).
CC BY-NC 4.0
Los autores pueden autorizar al público en general a
reutilizar sus obras únicamente con fines no
lucrativos, los lectores pueden utilizar una obra para
generar otra, siempre que se crédito a la
investigación, y conceden al editor el derecho a
publicar primero su ensayo bajo los términos de la
licencia CC BY-NC 4.0.
Editorial Mar Caribe se adhiere a la "Recomendación
relativa a la preservación del patrimonio documental,
comprendido el patrimonio digital, y el acceso al
mismo" de la UNESCO y a la Norma Internacional de
referencia para un sistema abierto de información
archivística (OAIS-ISO 14721). Este libro está
preservado digitalmente por ARAMEO.NET
2
Editorial Mar Caribe
Matemáticas para el aprendizaje de máquina
Colonia, Uruguay
2026
3
Matemáticas para el aprendizaje de máquina
4
Índice
Introducción ............................................................................................................ 9
Capítulo 1 .............................................................................................................. 12
Fundamentos matemáticos, modelización estocástica y estructuras
avanzadas en el aprendizaje de máquina .......................................................... 12
El continuo de la literatura especializada y la brecha de aplicación ........... 13
Fundamentos del álgebra lineal en espacios multidimensionales ............... 16
Descomposiciones matriciales y reducción de dimensionalidad ............... 16
Cálculo multivariable y optimización determinista ........................................ 17
Estadística matemática y pruebas de hipótesis ............................................. 18
Teoría de la información y flujos de conocimiento en redes profundas ...... 20
Geometría diferencial y topología algebraica en datos no euclidianos ....... 22
El enfoque de las variedades diferenciables en espacios curvos .............. 23
Análisis de datos topológicos en imagenología médica............................. 24
Estrategias pedagógicas, cursos masivos y curvas de aprendizaje .............. 24
Herramientas interactivas y entornos visuales de experimentación ............ 28
Capítulo 2 .............................................................................................................. 34
Álgebra lineal para machine learning ................................................................ 34
Estructuras fundamentales de datos y su representación geométrica ........ 35
Operaciones algebraicas y su rol en la mecánica del aprendizaje ............... 38
Sistemas de ecuaciones lineales y optimización de modelos ....................... 41
Descomposiciones matriciales como núcleo de la reducción de
dimensionalidad ................................................................................................ 43
El álgebra lineal en el paradigma del aprendizaje profundo ........................ 47
Aplicaciones específicas en el procesamiento de texto e imágenes ............. 50
Marco pedagógico y recursos educativos en el aprendizaje automático ..... 52
Capítulo 3 .............................................................................................................. 56
Algoritmos de optimización para el ajuste de parámetros e hiper parámetros
en modelos de aprendizaje automático .............................................................. 56
Fundamentos de la optimización y la dualidad entre parámetros e hiper
5
parámetros......................................................................................................... 56
Algoritmos de optimización de primer orden para el ajuste de parámetros
............................................................................................................................ 57
Descenso de gradiente estocástico y la introducción del momentum ..... 58
Paradigmas adaptativos: AdaGrad, RMSProp y Adam ............................... 59
Evolución hacia la estabilidad: AdamW, Yogi y Lion ................................... 61
Estrategias avanzadas para la optimización de hiperparámetros (HPO) .... 62
Métodos de búsqueda no informados: rejilla y aleatoriedad .................... 62
Optimización bayesiana y modelado de sustitutos .................................... 63
Comparativa de eficiencia en la sintonización de modelos ....................... 64
Algoritmos metaheurísticos y bioinspirados en la optimización de
parámetros......................................................................................................... 65
Algoritmos genéticos y evolutivos ................................................................ 65
Optimización por enjambre de partículas (PSO) ........................................ 66
Recocido simulado y optimización inspirada en plantas ........................... 66
Herramientas y ecosistemas de software para la optimización masiva ...... 67
Frameworks líderes: Optuna, Hyperopt y Ray Tune ................................... 67
Plataformas de MLOps y gestión de experimentos .................................... 68
Desafíos técnicos en la optimización de modelos de alta dimensión .......... 69
La maldición de la dimensionalidad y los puntos de silla ......................... 70
Robustez frente al ruido y generalización ................................................... 70
Sostenibilidad y eficiencia energética (LLMOps) ........................................ 71
Síntesis de hallazgos y perspectivas de futuro en optimización .................. 71
Capítulo 4 .............................................................................................................. 73
Probabilidad y Estadística para Machine Learning: Marco Integral para el
Análisis y la Toma de Decisiones ........................................................................ 73
El imperativo probabilístico en el aprendizaje automático ........................... 73
Definiciones fundamentales y espacios de eventos ................................... 74
El paradigma bayesiano: inferencia y actualización de creencias ................ 76
Mecánica del Teorema de Bayes .................................................................. 76
El clasificador Naïve Bayes ........................................................................... 77
6
Inferencia estadística y validación de modelos .............................................. 78
El contraste de hipótesis y el valor p ........................................................... 78
Tipos de pruebas y errores de decisión ....................................................... 78
Intervalos de confianza y estimación de parámetros ................................ 79
Análisis exploratorio de datos (EDA): la fase de descubrimiento ................. 79
Tratamiento de datos ausentes y atípicos ................................................... 80
Técnicas de visualización y resumen ........................................................... 80
Distribuciones de probabilidad clave en el aprendizaje estadístico ............. 81
La Distribución Normal y el Teorema Central del Límite ........................... 81
Distribuciones discretas: binomial y Poisson .............................................. 82
Reducción de dimensionalidad: Análisis de Componentes Principales (PCA)
............................................................................................................................ 82
Mecanismo matemático del PCA .................................................................. 83
Aplicaciones estratégicas y de negocio ....................................................... 83
Teoría de la decisión estadística y funciones de pérdida .............................. 84
Elementos de un problema de decisión....................................................... 84
Funciones de pérdida y minimización del riesgo ........................................ 85
Modelado avanzado: redes bayesianas y procesos gaussianos .................... 86
Redes Bayesianas y Razonamiento Causal ................................................. 86
Procesos gaussianos y cuantificación de la confianza ............................... 87
Estadística vs. Machine Learning: Convergencia y Diferencias
Epistemológicas ................................................................................................. 87
El ciclo de vida del proyecto de Machine Learning Estadístico ..................... 88
Capítulo 5 .............................................................................................................. 90
El Cálculo Multivariable como Eje Vertebrador del Entrenamiento de Redes
Neuronales Profundas .......................................................................................... 90
Fundamentos Matemáticos del Aprendizaje Profundo .................................. 90
La Función de Pérdida y el Objetivo de Optimización ................................ 91
El Descenso de Gradiente y la Geometría del Aprendizaje ........................... 93
El Gradiente como Vector de Sensibilidades ............................................... 93
Regla de Actualización y Tasa de Aprendizaje ............................................ 94
7
Retropropagación: La Regla de la Cadena en Redes Profundas .................. 94
De la Regla de la Cadena Univariable a la Multivariable ........................... 95
El Papel de las Funciones de Activación ...................................................... 96
Análisis de Sensibilidad mediante la Matriz Jacobiana ................................. 97
Estructura y Propiedades de la Jacobiana .................................................. 98
Estabilidad de la Jacobiana e Inicialización de Pesos ............................... 98
La Matriz Hessiana y la Curvatura del Paisaje de Pérdida ............................ 99
Curvatura y el hiper parámetro de estabilidad ........................................... 99
El fenómeno del borde de estabilidad (Edge of Stability) ......................... 99
Cálculo de Variaciones y Operadores en Redes Convolucionales (CNN) .... 101
La Dualidad Convolución-Correlación Cruzada ......................................... 101
Invarianza Espacial y Compartición de Pesos ........................................... 102
Retropropagación a través del tiempo (BPTT) en redes recurrentes ......... 103
Dependencias Temporales y la Cadena de Jacobianas ............................ 103
El problema de la explosión y desvanecimiento de gradientes ............... 103
Optimizadores Avanzados: Aproximaciones de Momentos de Orden
Superior ............................................................................................................ 104
Adam y la Adaptación Paramétrica ............................................................ 104
Métodos de Segundo Orden y K-FAC ......................................................... 105
Geometría y Topología de Paisajes de Pérdida en Alta Dimensión ............ 106
La proliferación de puntos de ensilladura ................................................. 106
Paisajes Convexos vs. Caóticos ................................................................... 106
El Papel del Cálculo en la Generalización y la Robustez ............................. 107
Mínimos Planos y el Principio de Estabilidad ........................................... 107
Regularización basada en jacobianas y hessianas ................................... 108
Capítulo 6 ............................................................................................................ 110
Arquitectura Geométrica y Transformaciones Trigonométricas en el
Aprendizaje de Máquina ..................................................................................... 110
Fundamentos de Geometría Analítica y Álgebra Lineal en el Espacio de
Características ................................................................................................. 110
8
Espacios Métricos y Geometría de la Distancia ......................................... 112
Trigonometría en el Modelado de Fenómenos Periódicos y Secuenciales . 113
Codificación cíclica y transformaciones de Seno/Coseno ........................ 114
Cálculo Trigonométrico y Análisis de Fourier............................................ 114
Geometría de la Optimización y Paisajes de Pérdida .................................. 115
Curvatura y la matriz hessiana ................................................................... 115
Impacto de las Conexiones de Salto y la Normalización ......................... 116
Geometría Diferencial y Manifold Learning .................................................. 117
Distancia Geodésica vs. Euclidiana en Variedades No Lineales .............. 117
Geometría de la Información y Divergencias de Probabilidad ................... 118
Divergencia de Kullback-Leibler y Entropía Relativa ................................ 119
Métrica de Fisher y Gradiente Natural ....................................................... 119
Geometría de grafos y redes neuronales de grafos (GNN) ......................... 120
Curvatura de Ricci en grafos y el problema del cuello de botella .......... 120
Redes Neuronales Equivariantes a Grupos (G-CNN) ................................ 121
Operadores Neuronales de Fourier y Continuidad Funcional ..................... 122
Conclusión ........................................................................................................... 125
Bibliografía .......................................................................................................... 127
9
Introducción
El ascenso y la consolidación del aprendizaje automático (Machine
Learning) en las primeras décadas del siglo XXI han revolucionado la
estructura de la sociedad moderna, igualando en impacto hitos históricos
como la invención del motor de combustión interna o el avance en las
comunicaciones inalámbricas. Actualmente, los algoritmos de aprendizaje
automático están presentes en muchas áreas, desde la lectura de matrículas
en cámaras de tráfico hasta la optimización de cadenas de suministro globales
y la personalización de contenidos en redes sociales.
Sin embargo, bajo la superficie de estas aplicaciones tecnológicas se
encuentra un lenguaje fundamental y riguroso: el de las matemáticas. La
relación entre las matemáticas y el aprendizaje automático no es meramente
instrumental; es ontológica. Las matemáticas no son solo una herramienta
para construir modelos, sino el lenguaje mismo que permite a los sistemas
artificiales aprender, adaptarse y tomar decisiones en entornos de
incertidumbre.
Para comprender la magnitud de esta disciplina, se puede emplear la
analogía del Burj Khalifa: así como el edificio más alto del mundo requiere
cimientos extraordinariamente profundos y sólidos para mantenerse estable,
la inteligencia artificial requiere una base matemática sólida para crecer y
evolucionar de manera segura y eficiente. Sin estos cimientos, cualquier
desarrollo tecnológico en el área es propenso a la inestabilidad, la falta de
precisión y la incapacidad de generalizar.
Esta obra de investigación se propone no solo como un compendio
técnico, sino también como una respuesta a la creciente necesidad de
10
profesionales que no solo operen software, sino que comprendan la mecánica
interna de los algoritmos que están redefiniendo la civilización.
Históricamente, el camino hacia el aprendizaje automático ha sido
trazado por hitos en la lógica y el análisis matemático. Desde Ada Lovelace,
quien anticipó la capacidad de las máquinas para manipular símbolos y
algoritmos, hasta el desarrollo del álgebra booleana por George Boole,
fundamental para el diseño de circuitos y la programación lógica. La
publicación de los Principia Mathematica por Bertrand Russell y Alfred
Whitehead intentó demostrar que las matemáticas elementales podían
reducirse a un razonamiento mecánico, un concepto que, aunque limitado por
los teoremas de incompletitud de Kurt Gödel, sentó las bases del pensamiento
computacional moderno, y hoy trasciende a la inteligencia artificial generativa.
A pesar del gran éxito de las aplicaciones de inteligencia artificial, existe
una desconexión importante entre la facilidad de uso de las herramientas y la
comprensión profunda de los principios matemáticos que las sostienen. Esta
situación ha dado lugar a lo que varios expertos llaman la brecha de
habilidades (skills gap), donde profesionales e ingenieros pueden implementar
modelos complejos con librerías como Scikit-Learn, TensorFlow o PyTorch sin
entender por qué funcionan o, aún más peligroso, bajo qué condiciones fallan.
Este problema tiene varias dimensiones que afectan la sostenibilidad y
la ética en el desarrollo tecnológico. Primero, la dependencia de modelos de
caja negra limita la innovación. Quienes no poseen una base matemática sólida
se ven relegados a ser simples usuarios de algoritmos existentes, sin
capacidad para crear variaciones originales o desarrollar nuevos paradigmas
de aprendizaje que aborden problemas específicos. La verdadera ventaja
competitiva en el mercado laboral de la inteligencia artificial no consiste en
11
saber instalar una librería, sino en tener un conocimiento profundo de los
algoritmos y sus implementaciones para optimizarlos o mejorarlos.
12
Capítulo 1
Fundamentos matemáticos,
modelización estocástica y
estructuras avanzadas en el
aprendizaje de máquina
El aprendizaje de máquina se sitúa en la intersección de las ciencias de
la computación, la ingeniería de sistemas y la matemática aplicada. En las
últimas décadas, la democratización de herramientas de software de código
abierto y de librerías de alto nivel ha permitido a miles de profesionales aplicar
modelos predictivos complejos sin requerir un conocimiento profundo de las
ecuaciones subyacentes.
Sin embargo, la abstracción excesiva de estos detalles técnicos conlleva
el riesgo de que los desarrolladores ignoren los límites de aplicabilidad y las
decisiones de diseño inherentes a los algoritmos. Comprender los principios
matemáticos no es simplemente un ejercicio académico, sino una necesidad
imperativa para evitar fallos estructurales en la arquitectura de modelos, para
diagnosticar comportamientos anómalos y para proponer innovaciones
capaces de superar las limitaciones actuales de la inteligencia artificial
El estudio formal de las matemáticas para el aprendizaje de máquina
abarca principalmente el álgebra lineal, el cálculo multivariable, la
probabilidad y la estadística, y la teoría de la información Asimismo, fronteras
más avanzadas de la investigación recurren a la geometría diferencial y la
13
topología para abordar estructuras de datos no euclidianas Este reporte
proporciona una revisión exhaustiva de estos dominios, analizando cómo
interactúan entre y cómo fundamentan los algoritmos modernos, además
de evaluar el panorama pedagógico actual para la adquisición de estas
competencias.
El continuo de la literatura especializada y la
brecha de aplicación
Una problemática recurrente en los entornos de desarrollo es la
desconexión entre la investigación teórica avanzada y la aplicación práctica en
el ámbito de los negocios. Quienes se enfocan excesivamente en la publicación
de artículos académicos suelen alejarse de los casos de uso comerciales,
mientras que los profesionales que operan exclusivamente con herramientas
de caja negra carecen de la capacidad de modificar o proponer variaciones
algorítmicas sustanciales. Esta tensión dialéctica determina el tipo de
literatura que cada perfil debe consultar para consolidar sus bases
matemáticas (González, 2025).
En este sentido, los textos clásicos asumen que el lector posee un
dominio consumado del cálculo y el álgebra lineal, relegando las matemáticas
a apéndices breves. Por el contrario, trabajos más recientes se enfocan
deliberadamente en la exposición didáctica de los prerrequisitos. La siguiente
matriz comparativa sintetiza las ventajas relativas de los textos más citados
en el ámbito académico y profesional, lo que permite al lector ponderar su
elección según su formación de origen y sus aspiraciones técnicas (véase la
Tabla 1).
14
Tabla 1: Ventajas relativas de los textos más citados en el ámbito académico
y profesional
Título del libro
Autores Principales
Enfoque Predominante y
Ventajas Distintivas
Mathematics for
Machine Learning
Deisenroth, Faisal y Ong.
Diseñado explícitamente
para cerrar la brecha
formativa entre la
educación secundaria y la
universidad estilo
matemático riguroso pero
accesible, vinculando la
teoría directamente con
aplicaciones como PCA,
regresión lineal, modelos
de mezclas gaussianas y
SVM
Pattern Recognition y
Machine Learning
Christopher Bishop
Enfoque marcadamente
probabilístico y
bayesiano. Posee una
exposición cuidadosa y
minuciosa, con
abundantes gráficos
intuitivos para explicar
derivaciones matemáticas
complejas, lo que resulta
ideal para principiantes
con formación básica.
The Elements of
Statistical Learning
Hastie, Tibshirani y
Friedman
Se considera el estándar
de oro en los
fundamentos estadísticos
clásicos del aprendizaje
automático. Las
formulaciones abstractas
de alta rigurosidad y sus
15
demostraciones
matemáticas lo vuelven el
texto idóneo para perfiles
con madurez matemática
previa
Deep Learning
Goodfellow, Bengio, y
Courville.
Texto enfocado en los
fundamentos del
aprendizaje profundo.
Posee una fuerte carga
de cálculo multivariable,
álgebra matricial y
optimización, orientada
específicamente a las
redes neuronales
artificiales.
Probabilistic Machine
Learning: An
Introduction
Kevin Patrick Murphy.
Funciona como una
enciclopedia exhaustiva
de métodos de
aprendizaje de máquina.
Su enfoque probabilístico
abarca tanto métodos
clásicos como
representaciones no
paramétricas avanzadas
y variables latentes
La sugerencia didáctica predominante en las comunidades de
aprendizaje indica comenzar con el texto de Deisenroth et al. para asentar las
nociones de álgebra y cálculo antes de transicionar hacia los libros de Bishop
o Goodfellow Marina Wyss, científica aplicada en Amazon, sugiere que no se
debe percibir la matemática como una barrera inicial inaccesible; al contrario,
propone construir proyectos prácticos primero, de modo que las necesidades
matemáticas surjan de forma orgánica a medida que se resuelven problemas
16
reales de optimización o ajuste de hiper parámetros.
Fundamentos del álgebra lineal en espacios
multidimensionales
El álgebra lineal constituye el andamiaje fundamental mediante el cual
se estructuran y manipulan los datos en cualquier sistema de aprendizaje de
máquina. Los objetos de estudio de esta disciplina, como escalares, vectores,
matrices y tensores, sirven como contenedores primarios de información. En
un conjunto de datos supervisado convencional, cada observación se modela
como un vector en un espacio vectorial euclidiano de dimensiones, mientras
que la colección completa de datos de entrenamiento conforma una matriz ,
vinculada a un vector de etiquetas o salidas esperadas 5 (Moyano et al.,
2024).
Las operaciones matriciales no solo simplifica la notación, sino que
reflejan transformaciones geométricas tangibles del espacio de datos La
multiplicación de matrices representa composiciones de transformaciones
lineales que permiten proyectar datos de un espacio dimensional a otro, rotar
representaciones o escalar magnitudes El producto punto entre dos vectores
mide la proyección de un vector sobre otro, revelando
nociones de similitud que resultan críticas en los motores de búsqueda
semántica y en el cálculo de mecanismos de atención en redes neuronales
transformadoras.
Descomposiciones matriciales y reducción de
17
dimensionalidad
A medida que los conjuntos de datos aumentan en volumen y
complejidad, el álgebra lineal proporciona herramientas para extraer las
estructuras latentes dominantes de estos conjuntos. La descomposición en
valores propios (eigendecomposition) y la descomposición en valores
singulares (SVD) permiten desfactorizar matrices masivas en componentes
ortogonales simplificados. En la ecuación característica de una matriz
cuadrada, los valores propios cuantifican el factor de estiramiento o
compresión que sufre el espacio a lo largo de las direcciones determinadas
por los vectores propios correspondientes.
El Análisis de Componentes Principales (PCA) se basa directamente en
la descomposición de la matriz de covarianza para proyectar los datos en un
subespacio de menor dimensión, preservando la mayor cantidad posible de
varianza. Esta técnica elimina la redundancia entre variables colineales,
acelera el entrenamiento de modelos posteriores y mitiga la maldición de la
dimensionalidad (Kitao, 2022). Los investigadores han destacado también la
relevancia de profundizar en el cálculo matricial puro, dado que operaciones
como la transposición y la inversión de matrices resultan ineludibles para
derivar analíticamente los gradientes en redes densas.
Cálculo multivariable y optimización
determinista
Si el álgebra lineal describe el estado y la geometría de los datos, el
cálculo diferencial e integral describe el cambio y la optimización de los
18
modelos a lo largo del tiempo. El propósito cardinal de la mayoría de los
algoritmos de aprendizaje de máquina es minimizar una función de pérdida o
coste que cuantifica la discrepancia entre las predicciones del modelo y la
realidad observada.
El cálculo diferencial introduce el concepto de derivada, que mide la
tasa de cambio instantánea de una función. En espacios de alta dimensión,
donde los modelos poseen millones de parámetros (como en el aprendizaje
profundo), las derivadas parciales se agrupan en un vector llamado gradiente.
El gradiente apunta en la dirección del ximo local de la función de coste.
Por ende, para minimizar el error, los parámetros del modelo se actualizan
iterativamente en la dirección opuesta al gradiente, un proceso conocido como
descenso de gradiente.
La regla de la cadena del cálculo diferencial es el motor que impulsa el
algoritmo de retropropagación (backpropagation) en las redes neuronales
artificiales Este algoritmo permite calcular el gradiente de la función de
pérdida con respecto a cada peso de la red, propagando el error desde la capa
de salida hacia las capas iniciales Sin una comprensión rigurosa de la regla de
la cadena y el comportamiento de las derivadas, resulta imposible diagnosticar
problemas severos en el entrenamiento de redes profundas, tales como el
desvanecimiento o la explosión del gradiente (Kim, 2025). Adicionalmente, el
análisis de convexidad y la identificación de mínimos locales y globales ayudan
a los investigadores a discernir por qué ciertos algoritmos convergen
rápidamente, mientras que otros quedan atrapados en regiones subóptimas
del paisaje de pérdida.
Estadística matemática y pruebas de hipótesis
19
El aprendizaje de máquina se enfrenta intrínsecamente a datos
ruidosos, incompletos o inciertos. La estadística proporciona el marco para
recolectar, describir e interpretar los datos, mientras que la teoría de la
probabilidad permite modelar matemáticamente los procesos estocásticos que
los generan.
El análisis predictivo requiere realizar suposiciones rigurosas sobre la
distribución subyacente de las variables estudiadas El conocimiento profundo
de las distribuciones discretas y continuas capacita a los profesionales para
seleccionar la clase adecuada de modelos estadísticos Por ejemplo, asumir una
distribución gaussiana (normal) en los residuos es una premisa básica de los
modelos de regresión lineal por mínimos cuadrados, mientras que problemas
que involucran el conteo de eventos discretos en intervalos de tiempo (como
la llegada de usuarios a un servidor) requieren la aplicación de distribuciones
de Poisson.
Más allá de la mera descripción de datos, la estadística inferencial es el
mecanismo principal mediante el cual las empresas tecnológicas validan el
rendimiento real de los modelos desplegados en producción Las pruebas A/B,
en las que se compara un grupo de prueba frente a un grupo de control,
dependen por completo del planteamiento de las pruebas de hipótesis y del
cálculo de los intervalos de confianza La comprensión de los diferentes tipos
de pruebas estadísticas permite a los ingenieros asegurarse de que las
mejoras observadas en las métricas de precisión no se deben al azar.
La Tabla 2 presenta de manera concisa las pruebas de hipótesis más
empleadas en la validación de modelos y la experimentación en ciencia de
datos:
20
Tabla 2: Pruebas de hipótesis más empleadas en la validación de modelos
Prueba Estadística
Propósito Principal y
Mecanismo
Aplicación común en
aprendizaje de máquina
Prueba Z
Compara las medias
poblacionales cuando la
varianza poblacional es
conocida y el tamaño de la
muestra es grande.
Validación de métricas de
precisión en flujos de
datos masivos.
Prueba T (Student)
Compara las medias de
dos grupos cuando la
varianza es desconocida o
la muestra es pequeña.
Pruebas A/B para evaluar
el impacto de un nuevo
algoritmo de
recomendación.
Prueba chi-cuadrado
Evalúa la independencia
entre variables
categóricas o la bondad
de ajuste.
Selección de
características
categóricas y análisis de
correlación no lineal.
Prueba F
Compara las varianzas de
dos poblaciones o evalúa
múltiples factores
simultáneamente
Empleada la prueba de
varianza de un factor
(ANOVA) para comparar
múltiples arquitecturas
de modelos.
La correcta aplicación de estos contrastes garantiza que la toma de
decisiones basada en datos posea significancia estadística, mitigando el riesgo
de sobreajuste o la adopción de modelos espurios
Teoría de la información y flujos de
conocimiento en redes profundas
21
Introducida por Claude Shannon en 1948, la teoría de la información
provee el andamiaje cuantitativo para medir la incertidumbre y el contenido
informativo de variables aleatorias. Al seleccionar variables explicativas,
optimizar arquitecturas neuronales o segmentar nodos en árboles de decisión,
se aplican directamente los principios informacionales.
El concepto de piedra angular es la entropía de Shannon, que mide el
grado de impredecibilidad o aleatoriedad de una distribución de probabilidad.
Para distribuciones uniformes, en las que todos los resultados son igualmente
probables, la entropía alcanza su máximo; para distribuciones sesgadas, en
las que un resultado es altamente predecible, la entropía es baja. En
algoritmos de inducción de árboles de decisión como ID3 o CART, la ganancia
de información (basada en la reducción de la entropía) determina qué variable
predictora ofrece la mejor partición del conjunto de datos en cada nodo.
Otra métrica insustituible es la divergencia de Kullback-Leibler (KL), que
cuantifica la cantidad de información adicional necesaria para codificar
eventos de una distribución verdadera mediante una distribución aproximada
propuesta por un modelo. Minimizar la divergencia KL entre la distribución
predicha por el modelo y la distribución empírica de los datos es la base de la
optimización de múltiples algoritmos generativos modernos, tales como los
decodificadores variacionales (VAE), que regularizan el espacio latente,
asegurando que este siga una distribución normal estándar.
La relación matemática intrínseca entre estos conceptos se manifiesta
en la pérdida de entropía cruzada (cross-entropy loss), ampliamente utilizada
para entrenar clasificadores neuronales multiclase. La entropía cruzada
combina la incertidumbre propia de los datos (la entropía original) y la
22
penalización por la ineficiencia de la aproximación algorítmica (la divergencia
KL), lo que constituye un objetivo directo para el descenso de gradiente (Yolles,
2022).
Investigaciones contemporáneas sugieren que las redes neuronales
profundas operan según el principio de embotellamiento de información
(information bottleneck). Según esta teoría, en las primeras capas de la red se
codifica la totalidad de la información de entrada, mientras que las capas
subsecuentes comprimen progresivamente dicha información, eliminando las
características irrelevantes y preservando únicamente las representaciones
abstractas necesarias para realizar la predicción final.
No obstante, investigadores del Instituto Santa Fe descubrieron que
para tareas de clasificación comunes y deterministas, las medidas
convencionales de embotellamiento de información pueden comportarse de
manera no intuitiva, agrupando conceptos disímiles de forma trivial. Esto
subraya que la comunidad científica aún busca métricas de comprensión que
reflejen fielmente la abstracción humana de alto nivel.
Geometría diferencial y topología algebraica
en datos no euclidianos
El legado duradero de la geometría euclidiana clásica subyace al
aprendizaje de máquina tradicional, que asume que los datos residen en
espacios euclidianos. No obstante, los desarrollos de frontera en inteligencia
artificial se enfrentan cada vez más a datos inherentemente no euclidianos y
ricamente estructurados, que presentan geometrías curvas, geometrías
complejas o interacciones relacionales en grafos. Para extraer conocimiento
23
útil de tales estructuras, se requiere una perspectiva matemática mucho más
amplia que recurra a la geometría diferencial, el álgebra abstracta y la
topología algebraica
El enfoque de las variedades diferenciables en espacios
curvos
La geometría diferencial estudia las propiedades de las curvas y
superficies mediante el cálculo y el álgebra lineal. En el contexto del
aprendizaje de máquina, tanto el espacio de datos como el de los parámetros
de una red neuronal pueden tratarse matemáticamente como variedades
(manifolds). Una variedad es un espacio topológico que, localmente, se
asemeja al espacio euclidiano plano, pero que, a escala global, puede
presentar una curvatura intrincada (Moyano et al., 2024).
Por ejemplo, la llamada geometría de la información dota al espacio de
las distribuciones de probabilidad de una estructura métrica riemanniana
mediante la métrica de Fisher-Rao Al entrenar un modelo, avanzar en línea
recta en el espacio de parámetros euclidiano no siempre implica un cambio
uniforme en el comportamiento del modelo; en su lugar, el descenso de
gradiente natural propone avanzar siguiendo las geodésicas (las rutas más
cortas sobre la superficie curva) de la variedad de distribuciones de
probabilidad, acelerando sustancialmente la convergencia algorítmica y
dotando de mayor robustez teórica a la optimización Investigaciones
doctorales recientes demuestran además el valor de la geometría de Finsler
en la comparación de longitudes esperadas derivadas de variedades
estocásticas, ofreciendo generalizaciones que sobrepasan el marco clásico de
Riemann.
24
Análisis de datos topológicos en imagenología médica
Mientras que la geometría diferencial realiza mediciones precisas de
distancias y ángulos en superficies, la topología adopta un enfoque mucho
más abstracto y flexible. La topología estudia las propiedades de los espacios
que permanecen invariantes bajo deformaciones continuas (estiramientos,
torsiones), prescindiendo de nociones gidas de distancia métrica y
centrándose únicamente en la conectividad y la vecindad entre puntos.
El Análisis de Datos Topológicos (TDA) utiliza herramientas de la
topología algebraica, como la homología persistente, para capturar
descriptores globales de conjuntos de datos de alta dimensión. El TDA es capaz
de detectar la presencia de agujeros, cavidades y componentes conectados en
las nubes de puntos de datos, estructuras que los algoritmos estadísticos
convencionales suelen ignorar (Gallego et al., 2025).
Se ha comprobado que la extracción previa de características
topológicas y geométricas, antes de suministrar los datos a un modelo de
aprendizaje profundo, puede reducir drásticamente el tiempo de
entrenamiento y elevar sustancialmente el rendimiento de la red en radiómica,
patómica y técnicas multiómicas, lo que contribuye de forma decisiva al
arsenal de la medicina de precisión.
Estrategias pedagógicas, cursos masivos y
curvas de aprendizaje
Ante el volumen y la abstracción de las disciplinas matemáticas
requeridas, la brecha entre el nivel cubierto en la educación secundaria y la
25
madurez matemática exigida por los libros de texto avanzados de aprendizaje
de máquina representa un desafío formidable para estudiantes y profesionales
autodidactas Marc Peter Deisenroth propone una analogía musical
sumamente esclarecedora para categorizar la manera en que las personas
interactúan con el aprendizaje de máquina y determinar el nivel de
profundidad matemática necesario para cada una:
1. El Oyente Astuto: Representa a los usuarios finales o expertos de
dominio no técnicos que se benefician de herramientas empaquetadas
de código abierto y de servicios en la nube, sin preocuparse por los
detalles algorítmicos profundos. Este perfil requiere únicamente una
intuición conceptual básica.
2. El Intérprete o Practicante Estereotípico: Es el científico de datos o
ingeniero de software que comprende las interfaces y los casos de uso y
es capaz de realizar proezas predictivas mediante la manipulación de
modelos existentes. Para ellos, la comprensión matemática les permite
discernir los límites y los beneficios de cada método y aplicarlos con
cierta flexibilidad.
3. El Compositor Novel: Son los investigadores que deben proponer y
explorar enfoques novedosos para el aprendizaje de datos, requiriendo
un dominio analítico absoluto de las bases subyacentes para formular
nuevas estructuras y funciones de pérdida
En respuesta a estas divergencias de perfiles, el ecosistema educativo
ha ofrecido una amplia variedad de cursos masivos en línea. El equilibrio entre
la teoría pura y la traducción de ecuaciones en código ejecutable constituye la
principal distinción entre los programas ofrecidos por universidades de élite y
26
las especializaciones industriales. La Tabla 3 expone detalladamente los
cursos más reconocidos para la adquisición de estas competencias:
Tabla 3: Cursos más reconocidos para la adquisición de competencias
digitales
Institución /
Plataforma
Nombre del
Curso
Duración
Enfoque y
Características
Distintivas
DeepLearning.AI
Math for ML &
Data Science.
12 - 13 semanas.
Nivel principiante
orientado a
desarrolladores
autodidactas
Emplea un
enfoque visual
para romper
barreras
matemáticas,
implementando
algoritmos de
clasificación y
optimización
directamente en
código ejecutable
de Python
Imperial College
London
Mathematics for
Machine Learning.
17 semanas.
Nivel intermedio
que asume
familiaridad
previa con
demostraciones
matemáticas
formales y
programación en
NumPy Actúa
como un puente
27
hacia la
investigación en
IA,
implementando
algoritmos desde
cero
MIT
OpenCourseWare
18.06 Linear
Algebra (Prof.
Gilbert Strang).
36 horas.
Clase maestra en
pensamiento
matemático y
computacional se
enfoca en
preparar a los
alumnos
avanzados para la
lectura de
artículos
científicos de
frontera,
cubriendo
descomposiciones
matriciales
profundas
Udemy
Math Foundations
of ML.
16 horas.
Orientado a la
implementación
práctica,
demostrando
línea por línea
cómo las fórmulas
abstractas se
convierten en
código en marcos
de trabajo como
NumPy,
TensorFlow y
PyTorch
28
MIT
OpenLearning
Math of Big Data
and ML
14 horas.
Nivel avanzado
enfocado en
resolver
restricciones de
escala masiva de
petabytes,
utilizando álgebra
de matrices
asociativas e
integrando bases
de datos con
teoría de grafos
Columbia
University / edX
Essential Math for
AI.
6 horas.
Funciona como un
repaso relámpago
e intensivo para
profesionales que
necesitan evaluar
sus lagunas de
conocimiento
antes de
entrevistas
técnicas rigurosas
Herramientas interactivas y entornos visuales
de experimentación
Paralelamente a los cursos estructurados, el paradigma educativo en
inteligencia artificial ha girado con fuerza hacia los entornos de exploración
interactivos ejecutados directamente en el navegador web.. Estas plataformas
rompen la aridez de las ecuaciones estáticas y permiten a los estudiantes e
investigadores forjar una comprensión táctil y dinámica de los flujos de
29
información en los modelos de aprendizaje de máquina.
La Tabla 4 compendia las herramientas visuales e interactivas de código
abierto más destacadas desarrolladas recientemente por la comunidad
científica y académica:
Tabla 4: Herramientas visuales e interactivas de código abierto
Nombre de la
herramienta
Categoría y Enfoque
Descripción y
Capacidades Operativas
Transformer Explainer
Modelos de Lenguaje
Ejecuta un modelo GPT-2
en tiempo real en el
navegador para que los
usuarios experimenten
con texto y observen en
tiempo real la predicción
de tokens y el
funcionamiento de las
capas de atención.
CNN Explainer
Visión Artificial
Diseñado para ayudar a
no expertos a comprender
las redes neuronales
convolucionales mediante
la visualización e
inspección directa de sus
capas operativas.
30
BertViz
Interpretabilidad
Extiende las herramientas
de visualización para
proyectar la atención
interna que prestan los
modelos masivos basados
en transformadores como
BERT, GPT-2 y RoBERTa.
exBERT
Análisis de NLP
Ayuda a los humanos a
realizar investigaciones
interactivas y a formular
hipótesis sobre el proceso
de deducción interna en
modelos de
procesamiento del
lenguaje natural.
GAN Lab
Modelos Generativos
Permite explorar redes
generativas antagónicas
(GANs), controlar
manualmente los
hiperparámetros y
observar la ejecución en
cámara lenta en el
navegador.
31
Embedding Projector
Álgebra Lineal
Ayuda a entender cómo
los modelos interpretan
los datos mediante
representaciones
vectoriales (embeddings),
lo que permite explorar
algoritmos como PCA, t-
SNE y UMAP.
The Language
Interpretability Tool
(LIT)
Ética y Sesgos
Plataforma abierta de
visualización para
comprender modelos de
NLP, orientada a
descubrir
comportamientos
adversariales, falta de
consistencia y sesgos de
género o estilo
What-If Tool
Auditoría de Modelos
Permite probar
visualmente el
comportamiento de los
modelos de aprendizaje
de máquina ya
entrenados con un
mínimo de código.
32
Seeing Theory
Probabilidad y Estadística
Creado originalmente en
la Universidad de Brown
Enseña conceptos
estocásticos y bayesianos
mediante manipulables
táctiles interactivos en el
navegador
La revisión exhaustiva realizada demuestra que las matemáticas
aplicadas al aprendizaje de máquina no constituyen un conjunto de fórmulas
aisladas, sino un continuo analítico integrado en el que cada disciplina
desempeña un rol sinérgico insustituible. El álgebra lineal provee los cimientos
para organizar flujos masivos de datos en espacios de múltiples dimensiones.
El cálculo multivariable dinamiza dichos datos, posibilitando la
optimización paramétrica mediante formulaciones precisas del gradiente y de
la regla de la cadena. Por su parte, la estadística matemática dota al sistema
de la capacidad de operar bajo incertidumbre, de modelar ruidos y de emitir
juicios predictivos respaldados por pruebas de hipótesis rigurosas,
indispensables en el entorno empresarial (Ríos y de la Fuente, 2023).
Finalmente, la teoría de la información establece los límites de compresión y
los flujos de entropía indispensables para el entrenamiento de redes masivas.
El advenimiento de arquitecturas que superan las limitaciones de los
espacios continuos planos exige una creciente alfabetización en geometría
diferencial y topología algebraica, campos que ya demuestran su valor en la
medicina de precisión y en el procesamiento de señales no euclidianas La
33
desconexión entre el uso utilitario de librerías de software de caja negra y la
ignorancia de los fundamentos matemáticos subyacentes representa una
vulnerabilidad operativa significativa para la industria tecnológica actual Por
consiguiente, la inmersión estructurada en estos lenguajes analíticos,
impulsada y facilitada por la profusión de entornos de visualización interactiva
y cursos de traducción a código, se perfila como la única vía sostenible para
aquellos profesionales que aspiren a convertirse en compositores y líderes de
las arquitecturas del mañana en el aprendizaje de máquina
34
Capítulo 2
Álgebra lineal para machine
learning
El álgebra lineal se erige como la columna vertebral matemática de
múltiples disciplinas científicas, pero su relevancia en el campo del aprendizaje
automático y la inteligencia artificial no tiene parangón. No se trata
simplemente de un conjunto de herramientas operativas para agilizar cálculos
numéricos, sino del lenguaje fundamental mediante el cual se estructuran,
manipulan y transforman los datos en representaciones abstractas que los
algoritmos computacionales pueden procesar y comprender de manera
óptima.
En la era del procesamiento masivo de información y el aprendizaje
profundo, los conjuntos de datos rara vez se presentan como variables aisladas
o simples listas unidimensionales; por el contrario, la información del mundo
real se caracteriza por su alta dimensionalidad y su complejidad estructural
Desde la representación geométrica de imágenes compuestas por millones de
píxeles hasta la modelización de la semántica en el procesamiento del lenguaje
natural mediante incrustaciones de palabras, el álgebra lineal proporciona el
andamiaje necesario para operar en estos vastos espacios multidimensionales.
La conexión histórica y conceptual de esta disciplina con el desarrollo
de algoritmos computacionales data de siglos atrás, cuando matemáticos
como Leonhard Euler en el siglo XVIII idearon métodos para resolver sistemas
de ecuaciones lineales aplicados a la astronomía y la física Posteriormente, en
35
la segunda mitad del siglo XIX, figuras como Arthur Cayley y James Joseph
Sylvester consolidaron el álgebra matricial, sentando las bases teóricas que
hoy en día permiten a los científicos de datos resolver problemas de
optimización a gran escala En el panorama contemporáneo, el álgebra lineal
permite expresar conjuntos de datos complejos de una forma que los
algoritmos pueden entender y procesar, lo que posibilita construir modelos de
alta complejidad utilizando una gran cantidad de datos recopilados del mundo
real.
Estructuras fundamentales de datos y su
representación geométrica
Para comprender la profundidad con la que el álgebra lineal impregna
el aprendizaje automático, resulta imperativo examinar las estructuras de
datos fundamentales que componen cualquier arquitectura analítica. En el
nivel más básico, se encuentran los escalares, que representan magnitudes
individuales sin dirección, como un único número real que podría denotar la
tasa de aprendizaje de un algoritmo o un parámetro de regularización
(Guzmán et al., 2025). Sin embargo, la unidad de procesamiento por excelencia
en el machine learning es el vector, concebido como una matriz ordenada de
números que puede interpretarse tanto de manera algebraica como
geométrica.
Geométricamente, un vector representa un punto o una flecha en un
espacio n-dimensional; algebraicamente, encapsula las características o
atributos de una sola observación dentro de un conjunto de datos Por ejemplo,
en un sistema de tasación inmobiliaria, un vector puede contener las
36
dimensiones de una vivienda, el número de habitaciones y la distancia al centro
urbano Cuando múltiples vectores de características se agrupan para
representar un conjunto completo de datos, emerge la matriz Una matriz
bidimensional dispone las observaciones en sus filas y las variables o
características en sus columnas, estableciendo una cuadrícula numérica que
permite realizar operaciones masivas de manera simultánea. Esta estructura
no solo es eficiente para el almacenamiento, sino que también sirve como
operador de transformaciones lineales, un concepto medular en el que una
matriz actúa sobre un vector para rotarlo, escalarlo o proyectarlo en un nuevo
espacio vectorial.
Finalmente, los tensores generalizan los conceptos de escalares,
vectores y matrices a dimensiones superiores. En el aprendizaje profundo, los
tensores son el estándar absoluto para alimentar información a las redes
neuronales artificiales Una imagen en color, por ejemplo, no puede
representarse de manera óptima en una matriz bidimensional simple si se
desea preservar la información de los canales cromáticos; por lo tanto, se
utiliza un tensor tridimensional donde la altura, la anchura y los canales de
color forman tres ejes coordinados separados. La capacidad de generalizar
estas estructuras permite a los modelos procesar flujos continuos de datos
masivos sin perder la coherencia espacial y estructural de la información de
origen.
La Tabla 5 sintetiza estas estructuras algebraicas y su correspondencia
directa dentro de los flujos de trabajo tradicionales en la ciencia de datos y el
aprendizaje automático:
37
Tabla 5: Correspondencia directa entre estructuras algebraicas y flujos de
trabajo convencionales en ciencia de datos y aprendizaje automático.
Definición
Matemática
Interpretación en
Machine Learning
Dimensión Típica
Un único valor
numérico real sin
dirección asociada.
Parámetros del
modelo, tasas de
aprendizaje,
coeficientes de
sesgo.
-D
Arreglo ordenado de
números dispuesto
en una sola columna
o fila.
Vector de
características de
una observación o
de coordenadas
espaciales.
-D
Arreglo
bidimensional de
números,
organizado en filas y
columnas.
Conjunto de datos
tabulares completo
(filas como
muestras y
columnas como
variables).
-D
38
Generalización
multidimensional de
matrices para n
ejes.
Imágenes
multicanales,
secuencias de video
y procesamiento por
lotes en redes
neuronales.
-D ( )
La comprensión de estas estructuras permite a los investigadores
abstraer la naturaleza física de los datos. No importa si la entrada original
corresponde a señales de audio, archivos de texto o telemetría satelital; una
vez codificados en forma de vectores y matrices, todos los datos se someten a
los mismos principios y reglas de procesamiento matemático. Esta unificación
algorítmica ha permitido el vertiginoso avance de la inteligencia artificial en
campos aparentemente inconexos.
Operaciones algebraicas y su rol en la
mecánica del aprendizaje
Dentro del nutrido repertorio de operaciones que el álgebra lineal
aporta al aprendizaje automático, el producto punto y la multiplicación de
matrices destacan como catalizadores fundamentales de la inferencia y el
entrenamiento. El producto punto entre dos vectores no es simplemente una
operación aritmética que produce un escalar, sino que tiene una interpretación
geométrica de gran calado: mide la proyección de un vector sobre otro y, por
ende, su similitud direccional (De la Cruz, 2025).
En los sistemas de recomendación modernos, como los implementados
39
por plataformas de transmisión de video o de comercio electrónico, el producto
punto se utiliza ampliamente para calcular la alineación entre el vector que
representa las preferencias latentes de un usuario y el que describe los
atributos de un producto determinado. Una puntuación elevada en el producto
punto indica una alta afinidad geométrica, lo que se traduce en una
recomendación precisa de contenido.
La multiplicación de matrices, por su parte, representa la composición
de transformaciones lineales. Cuando un vector de entrada atraviesa una capa
de una red neuronal artificial, se somete esencialmente a una multiplicación
matricial con una matriz de pesos aprendidos. Esta operación proyecta los
datos de entrada en un nuevo espacio de características, donde las relaciones
complejas pueden volverse linealmente separables o más fáciles de procesar
en capas posteriores.
Resulta fascinante observar que si no fuera por la adición de funciones
de activación no lineales entre estas multiplicaciones matriciales, cualquier red
neuronal profunda colapsaría matemáticamente en un modelo de regresión
lineal simple, dado que la composición de múltiples transformaciones lineales
consecutivas equivale invariablemente a una única transformación lineal. A
continuación se presenta la tabla 6 de operaciones fundamentales en el
álgebra lineal computacional y su impacto en la construcción de modelos:
Tabla 6: Operaciones esenciales del álgebra lineal computacional y su
influencia en el desarrollo de modelos.
Operación Algebraica
Definición Formal
Aplicación Práctica en
40
Algoritmos
Producto Punto
Medición de la similitud en
sistemas de recomendación y
cálculo de las activaciones.
Multiplicación Matricial
Propagación hacia adelante
en redes neuronales e
ingeniería de características
masiva.
Matriz Transpuesta
(intercambio de filas
por columnas)
Alineación de dimensiones
para operaciones de
multiplicación y de derivación
de gradientes.
Matriz Inversa
tal que
Solución analítica de las
ecuaciones normales en la
regresión lineal clásica.
El uso de bibliotecas optimizadas como NumPy permite realizar estas
operaciones sin recurrir a bucles iterativos tradicionales en lenguajes de alto
nivel, lo que resultaría prohibitivamente lento con grandes volúmenes de
datos. En su lugar, estas bibliotecas delegan el cálculo a rutinas de bajo nivel
altamente optimizadas que aprovechan las capacidades de vectorización del
41
hardware y la paralelización en procesadores modernos y unidades de
procesamiento gráfico (Raschka et al., 2020).
Un mecanismo crucial en el álgebra lineal aplicada a la computación es
el concepto de transmisión o broadcasting. Este mecanismo permite a las
bibliotecas computacionales operar con arreglos de distintas formas en
operaciones aritméticas, lo que suele hacer que el código sea más conciso y
rápido. Por ejemplo, si se desea sumar un vector constante a cada fila de una
matriz de mayor dimensión, las reglas de transmisión permiten expandir
virtualmente el operando de menor rango sin necesidad de replicar
físicamente los datos en la memoria, lo que optimiza drásticamente los
recursos computacionales durante la fase de entrenamiento.
Las reglas estrictas de la transmisión requieren que dos dimensiones
sean compatibles si tienen la misma longitud o si una de ellas es igual a la
otra . En cualquier dimensión en la que un arreglo tenga tamaño y el otro
tenga un tamaño mayor que , el primer arreglo se comporta como si fuera
copiado a lo largo de esa dimensión. Este fenómeno es el núcleo que permite
a los algoritmos procesar conjuntos masivos de datos, manteniendo una huella
de memoria baja.
Sistemas de ecuaciones lineales y
optimización de modelos
Muchos de los algoritmos fundamentales en el aprendizaje automático
pueden formularse en última instancia como la búsqueda de soluciones para
sistemas de ecuaciones lineales. El ejemplo arquetípico es la regresión lineal,
42
un método estadístico utilizado para predecir el valor de una variable
dependiente continua a partir de una o más variables independientes o
predictoras. En un escenario de regresión lineal múltiple con características,
el objetivo es encontrar un vector de pesos y un sesgo que satisfagan de
la mejor manera posible la ecuación para todas las
observaciones del conjunto de datos.
Cuando se dispone de un conjunto masivo de datos de entrenamiento,
el sistema de ecuaciones resultante suele estar sobre determinado, lo que
significa que existen más ecuaciones que incógnitas y, por tanto, no existe una
solución exacta que satisfaga todas las igualdades debido al ruido intrínseco
de los datos del mundo real En este punto, el álgebra lineal introduce el
concepto de mínimos cuadrados En lugar de buscar una solución exacta que
no existe, los algoritmos buscan el vector de coeficientes que minimice la
norma de la diferencia entre las predicciones del modelo y los valores reales
observados La solución analítica a este problema se conoce como la ecuación
normal y se expresa matemáticamente como .
Para determinar analíticamente la viabilidad de resolver estos sistemas,
se recurre a conceptos como el rango de una matriz y el determinante. El
determinante de una matriz cuadrada indica si la matriz es invertible; si el
determinante es cero, la matriz es singular y no posee inversa, lo que
imposibilita el uso directo de la ecuación normal (Stanimirović et al., 2024).
Por otro lado, el rango describe el número máximo de columnas
linealmente independientes de una matriz, lo que, a su vez, determina la
dimensión del espacio vectorial generado por sus columnas. En machine
43
learning, si el rango es menor que el número de características, indica que hay
redundancia en los datos recolectados, lo que requiere técnicas de eliminación
o de regularización para evitar fallas catastróficas durante el entrenamiento.
La resolución algorítmica de estos sistemas implica técnicas de
eliminación gaussiana, que transforman una matriz en su forma escalonada
por filas mediante operaciones elementales de fila. Este proceso comprende la
eliminación hacia adelante para generar ceros por debajo de la diagonal y la
sustitución posterior hacia atrás para obtener las variables finales. Dado que
el cálculo numérico por computadora es susceptible de errores de redondeo,
se aplican estrategias como el pivoteo para evitar la división por cero y mejorar
la estabilidad numérica global del algoritmo.
Sin embargo, la computación directa de la matriz inversa conlleva
desafíos numéricos de gran magnitud. Si el conjunto de datos presenta
multicolinealidad, es decir, si dos o más variables predictoras están altamente
correlacionadas entre sí, la matriz de covarianza se vuelve casi singular o mal
condicionada. Intentar invertir una matriz en tales condiciones produce
errores numéricos masivos que desestabilizan por completo el entrenamiento
del modelo y destruyen su capacidad de generalización.
Para mitigar este problema, los profesionales del aprendizaje
automático recurren a la pseudoinversa de Moore-Penrose, calculada
habitualmente mediante la descomposición en valores singulares, lo que
permite encontrar una solución de mínimos cuadrados incluso cuando la
matriz de covarianza no tiene rango completo, ignorando de manera efectiva
las dimensiones redundantes que introducen el ruido numérico.
Descomposiciones matriciales como núcleo de
44
la reducción de dimensionalidad
A medida que los conjuntos de datos crecen en escala, a menudo sufren
la maldición de la dimensionalidad. Cuando el número de variables o
características de un conjunto de datos es muy elevado (a veces hasta alcanzar
los miles o los millones), los puntos tienden a dispersarse exponencialmente
en el espacio multidimensional. Esta dispersión hace que las métricas
tradicionales de distancia pierdan efectividad, degrada el rendimiento
computacional de los algoritmos y expone a los modelos a un riesgo severo de
sobreajuste o overfitting, en el que la arquitectura de aprendizaje simplemente
memoriza el ruido de entrenamiento en lugar de abstraer patrones
subyacentes significativos (Hou y Behdinan, 2022).
La reducción de dimensionalidad es el proceso de proyectar datos desde
un espacio de alta dimensionalidad a un subespacio de dimensión inferior, con
el objetivo de preservar la mayor cantidad posible de la estructura geométrica
original y de la varianza de la información. El álgebra lineal proporciona la
maquinaria matemática necesaria para realizar estas reducciones mediante
diversos métodos de descomposición matricial. La descomposición matricial
consiste esencialmente en dividir una matriz compleja en el producto de
matrices más simples y estructuradas que revelan las propiedades latentes
del sistema de datos original
Existen varios métodos de descomposición recurrentes en el
aprendizaje automático, cada uno con propiedades específicas que los hacen
aptos para diferentes contextos analíticos y computacionales (véase la Tabla
7):
45
Tabla 7: Métodos de descomposición recurrentes en el aprendizaje
automático
Método de
Descomposición
Descripción y Estructura
Matemática
Aplicación en Machine
Learning
Descomposición LU
Divide una matriz en el
producto de una matriz
triangular inferior ( ) y
otra superior ( ).
Resolución ágil y eficiente
de sistemas de
ecuaciones lineales y
cálculo de determinantes
Descomposición QR
Factoriza una matriz en
una matriz ortogonal ( )
y una matriz triangular
superior ( ).
Utilizado de forma
predilecta para resolver
problemas de mínimos
cuadrados y computar
valores propios
Descomposición en
Valores Propios
Descompone una matriz
diagonalizable en
términos de sus vectores
propios y valores propios
().
Base matemática del
Análisis de Componentes
Principales para capturar
la varianza máxima
Descomposición en
Valores Singulares (SVD)
Factoriza cualquier matriz
rectangular como el
producto , donde
y son ortogonales.
Reducción de
dimensionalidad robusta,
compresión de imágenes
y modelado de temas
latentes en NLP
El Análisis de Componentes Principales (PCA) es la técnica de reducción
de dimensionalidad más extendida y se fundamenta directamente en la
46
descomposición espectral, o de valores propios, de la matriz de covarianza de
los datos. Los vectores propios de la matriz de covarianza indican las
direcciones espaciales en las que los datos presentan la mayor dispersión o
varianza, mientras que los valores propios asociados cuantifican la magnitud
de dicha varianza en cada una de esas direcciones (Vinegoni et al., 2020). Al
ordenar los vectores propios en función de la magnitud decreciente de sus
valores propios y conservar únicamente los primeros componentes, es
posible reducir sustancialmente las dimensiones del conjunto de datos,
manteniendo intactas las relaciones estructurales de mayor peso informativo.
Por otro lado, la descomposición en valores singulares (SVD) se
presenta como una alternativa aún más versátil y numéricamente estable que
la descomposición de valores propios tradicional. A diferencia de esta última,
que exige que la matriz sea cuadrada y diagonalizable, la SVD es aplicable a
cualquier matriz rectangular , lo que la hace universalmente aplicable
a matrices de datos crudos. Matemáticamente, la SVD descompone una matriz
en el producto , donde es una matriz diagonal que contiene los
valores singulares dispuestos en orden descendente.
La relación entre SVD y PCA es íntima. En términos computacionales, la
SVD se utiliza a menudo como el motor numérico subyacente para calcular los
componentes principales del PCA, evitando la formación explícita de la matriz
de covarianza, lo cual puede resultar costoso e inestable en términos de
precisión de coma flotante. Una de las grandes virtudes de la SVD es que
permite cuantificar con precisión la pérdida de información que sufre un
modelo al reducir sus dimensiones.
47
Dado que la varianza total de los datos equivale a la traza de la matriz
de covarianza muestral, y esta, a su vez, es proporcional a la suma de los
cuadrados de los valores singulares, la eliminación de los valores singulares
más pequeños permite conocer con precisión matemática el porcentaje de
varianza que se ha sacrificado en aras de la eficiencia computacional y la
simplificación estructural.
Aparte de PCA y SVD, existen otros métodos de descomposición
matricial no lineales o sujetos a restricciones específicas. La factorización
matricial no negativa (NMF) asume que tanto los datos de entrada como las
matrices factorizadas resultantes deben contener únicamente elementos no
negativos. Esta aproximación es profundamente útil en el procesamiento de
imágenes o en el análisis de texto, donde las intensidades de píxel o las
frecuencias de palabras no pueden ser negativas por definición física. La NMF
minimiza la distancia entre la matriz original y el producto de dos matrices no
negativas, utilizando típicamente la norma de Frobenius al cuadrado como
función de distancia de referencia.
En paralelo, el análisis de componentes independientes (ICA) se utiliza
tradicionalmente para separar señales mixtas, un problema conocido en el
procesamiento de señales como la separación ciega de fuentes. A diferencia
de PCA, que busca direcciones ortogonales que maximicen la varianza
(garantizando que las propiedades resultantes no estén correlacionadas entre
sí), el ICA busca componentes estadísticamente independientes, modelando
distribuciones que a menudo no son gaussianas.
El álgebra lineal en el paradigma del
48
aprendizaje profundo
El auge contemporáneo de las tecnologías de inteligencia artificial se
debe en gran medida al éxito de las redes neuronales profundas y las
arquitecturas de transformadores, si bien, conceptualmente, estos modelos
imitan la transmisión de señales bioeléctricas entre neuronas biológicas,
desde una perspectiva estrictamente computacional no son más que un
ensamblaje masivo y jerárquico de operaciones de álgebra lineal acopladas a
funciones de mapeo no lineales.
En el aprendizaje profundo, toda la información se representa y procesa
en forma de tensores. En una red neuronal convolucional estándar orientada
al reconocimiento de imágenes, los filtros de convolución se deslizan sobre el
tensor tridimensional de entrada, realizando de forma iterativa productos
punto de matrices pequeñas para extraer jerarquías de características
espaciales, como bordes, texturas y formas complejas (Gao et al., 2025). A
medida que el flujo de información avanza hacia las capas más profundas, las
dimensiones espaciales suelen reducirse mediante operaciones de
submuestreo, mientras que la profundidad de los canales de características
aumenta, lo que permite a la red abstraer conceptos cada vez más semánticos
y menos ligados a la cuadrícula de píxeles original.
El entrenamiento de estas inmensas estructuras se basa en el algoritmo
de retropropagación o backpropagation. Después de que un lote de datos de
entrenamiento fluye hacia adelante a través de la red y genera una predicción,
una función de pérdida evalúa matemáticamente la desviación entre dicha
predicción y la etiqueta real u objetivo Para minimizar este error, el algoritmo
debe calcular cómo contribuyó cada uno de los millones o miles de millones
49
de parámetros (pesos y sesgos) de la red al error total.
Este cálculo masivo se resuelve aplicando la regla de la cadena del
cálculo diferencial multivariable, pero su expresión y su ejecución se realizan
enteramente mediante el cálculo matricial y las leyes de la álgebra lineal. El
gradiente de la función de pérdida respecto a los pesos de una capa se calcula
mediante el producto de matrices que contienen las derivadas parciales de la
capa anterior y los estados de activación actuales. De este modo, la
optimización de una red profunda se reduce a una secuencia orquestada de
gigantescas multiplicaciones de matrices y operaciones de transposición que
se repiten cíclicamente durante millones de iteraciones hasta alcanzar la
convergencia del modelo.
La Tabla 8 presenta un desglose de las cuatro fases lógicas de la
computación en una red neuronal artificial y su traducción matemática directa:
Tabla 8: Fases lógicas de una red neuronal artificial y su traducción
matemática.
Fase de Entrenamiento
Operación Matemática
Subyacente
Rol de las Matrices y
Vectores
Propagación hacia adelante
El vector de entrada se
multiplica por la matriz de
pesos para proyectarlo al
nuevo espacio.
50
Función de Activación
Operación no lineal,
elemento a elemento,
aplicada al vector resultante
de la transformación.
Cálculo de Error
Evaluación de la divergencia
entre la predicción y el suelo
real mediante normas
vectoriales.
Retropropagación
El uso de la regla de la
cadena para propagar los
errores hacia atrás mediante
productos matriciales.
El vertiginoso progreso del aprendizaje profundo en la última década
ha estado directamente impulsado por el desarrollo paralelo de hardware
especializado capaz de ejecutar estas operaciones tensoriales masivas a
velocidades vertiginosas, lo que permite entrenar en días modelos que antes
habrían requerido siglos de computación secuencial tradicional.
Aplicaciones específicas en el procesamiento
de texto e imágenes
El álgebra lineal no solo sienta las bases de los modelos, sino que
también define cómo las máquinas interpretan los objetos físicos del mundo
51
real. En el ámbito de la visión computacional, una imagen digital no es más
que una matriz bidimensional (para imágenes en escala de grises) o un tensor
tridimensional (para imágenes a color) de valores numéricos que representan
la intensidad de la luz en cada píxel (Oviedo y Jiménez, 2022). En consecuencia,
operaciones geométricas comunes como la rotación, el escalado y la traslación
de imágenes se implementan directamente mediante la aplicación de matrices
de transformación lineal a las coordenadas de los píxeles.
Por ejemplo, en el entrenamiento de redes neuronales convolucionales
aplicadas a imágenes, la aplicación de matrices de rotación al conjunto de
datos de entrenamiento permite generar nuevas muestras sintéticas, lo que
obliga al modelo a aprender a reconocer objetos independientemente de su
orientación espacial, lo cual incrementa notablemente la robustez del sistema
final ante variaciones imprevistas.
Por otro lado, en el procesamiento del lenguaje natural (NLP), los
mayores retos provienen de la naturaleza categórica e inestructurada del
lenguaje humano. Para que un algoritmo de machine learning procese texto,
las palabras o frases individuales de un vocabulario deben mapearse a
vectores de números reales mediante un proceso conocido como incrustación
de palabras o word embedding.
Este procedimiento traslada la semántica de las palabras a relaciones
de proximidad espacial en un hiperespacio de alta dimensión. Por ejemplo,
palabras con significados o usos contextuales similares se posicionarán en
vectores cuyas direcciones en el espacio multidimensional estén muy
próximas, lo que permite que una simple operación de producto punto mida
con precisión la correlación semántica entre dos oraciones complejas.
52
Adicionalmente, técnicas clásicas de modelado de temas como la
Asignación Latente de Dirichlet (LDA) o el Análisis Semántico Latente (LSA) se
apoyan en el álgebra lineal para extraer temáticas subyacentes de grandes
corpus de texto Mediante la descomposición de matrices dispersas que
cuantifican la frecuencia de términos en miles de documentos, estos
algoritmos aíslan conceptos puros, eliminando la ambigüedad lingüística y
reduciendo de nuevo el problema a una simple manipulación de proyecciones
sobre subespacios de baja dimensión.
Marco pedagógico y recursos educativos en el
aprendizaje automático
Dada la indiscutible posición que ocupa el álgebra lineal en la disciplina
del machine learning, la formación de profesionales competentes ha
impulsado la creación de trayectorias educativas y recursos orientados a cerrar
la brecha entre la matemática pura y su implementación en código.
Tradicionalmente, los libros de texto de aprendizaje automático asumen que
el lector ya posee un dominio avanzado de las matemáticas y la estadística,
dedicando a lo sumo un par de capítulos introductorios o apéndices a estos
temas (Cavani, 2025). Sin embargo, la amplia adopción de estas tecnologías
ha revelado una brecha de habilidades entre estudiantes y profesionales que
no provienen de formaciones puramente matemáticas o físicas.
Para atender esta necesidad, han surgido recursos de acceso abierto y
literatura especializada de alto valor. Un texto de referencia medular en esta
transición es el libro Mathematics for Machine Learning de Marc Peter
Deisenroth, A. Aldo Faisal y Cheng Soon Ong, que actúa como un puente
53
unificado que presenta el álgebra lineal, la geometría analítica y las
descomposiciones matriciales con un enfoque directo en sus aplicaciones
prácticas en algoritmos de machine learning. Este tipo de literatura se
complementa con recursos visuales e intuitivos de gran relevancia en el
ecosistema digital contemporáneo, como la serie de videos Essence of Linear
Algebra del canal educativo 3Blue1Brown, frecuentemente recomendada por
científicos de datos para construir una comprensión geométrica sólida antes
de abordar el formalismo algebraico abstracto.
En la literatura clásica sobre la adquisición de fundamentos
matemáticos rigurosos, las obras del profesor Gilbert Strang del Instituto
Tecnológico de Massachusetts (MIT) continúan posicionándose como el
estándar absoluto de la disciplina, ofreciendo una sólida comprensión de las
factorizaciones matriciales y del análisis numérico necesario para sustentar
desarrollos algorítmicos complejos. En combinación con cursos impartidos en
plataformas masivas en línea por entidades de referencia como Coursera o
DeepLearning.AI, los estudiantes e investigadores de hoy disponen de un
ecosistema que democratiza el acceso al conocimiento técnico avanzado.
La mayoría de los investigadores sugieren firmemente un enfoque de
aprendizaje pragmático, en el que los estudiantes comienzan construyendo
proyectos prácticos y, a medida que surjan problemas numéricos o de
optimización en el camino, el aprendizaje matemático se convierte en una
necesidad natural que facilita la resolución de estos desafíos en lugar de ser
una barrera de entrada puramente teórica. Una práctica pedagógica de alto
rendimiento consiste en implementar desde cero algoritmos clásicos, como la
regresión lineal o el descenso de gradiente, utilizando bibliotecas matriciales
básicas como NumPy, para internalizar el comportamiento exacto de los
54
sistemas sobredeterminados y las consecuencias de la dispersión de los datos.
El análisis exhaustivo de las intersecciones entre las matemáticas
vectoriales y las ciencias de la computación demuestra que el álgebra lineal
no es un mero accesorio metodológico para el desarrollo del machine learning,
sino su motor operativo y existencial directo (Brito et al., 2025). Desde las
operaciones aritméticas más elementales sobre escalares y vectores que
sustentan las regresiones estadísticas clásicas, hasta las complejas
descomposiciones de rango bajo, como la SVD, que permiten destilar
estructuras latentes en masivos conjuntos de datos no estructurados, el
álgebra lineal provee el vocabulario inequívoco y estricto que dota de
inteligencia matemática a las máquinas.
Se observa que la comprensión profunda de estos conceptos no solo
permite a los profesionales aplicar algoritmos preexistentes como cajas negras
cerradas, sino que resulta indispensable para diagnosticar comportamientos
anómalos durante el entrenamiento de modelos complejos. Fenómenos
analíticos tan disruptivos como la inestabilidad de las soluciones debido a la
multicolinealidad, la pérdida exponencial de información en el proceso de
proyección o el desvanecimiento de los gradientes en redes neuronales no
pueden comprenderse ni mitigarse eficazmente sin una sólida base en las
propiedades espectrales de las matrices y las leyes de transformación de los
espacios vectoriales.
A medida que el campo avanza hacia el procesamiento de volúmenes
de datos aún más inconmensurables y arquitecturas de inteligencia artificial
generativa cada vez más masivas, el desafío inminente radicará en el
desarrollo de algoritmos de álgebra lineal numérica que sean aún más
55
estables, dispersos y eficientes en el uso de recursos energéticos y de
memoria. En última instancia, el futuro de la inteligencia artificial continuará
indisolublemente ligado a la capacidad de la comunidad científica para seguir
innovando en los métodos numéricos que gobiernan el comportamiento de los
vectores, las matrices y los tensores que dan forma a nuestro entendimiento
digital del mundo
56
Capítulo 3
Algoritmos de optimización para
el ajuste de parámetros e hiper
parámetros en modelos de
aprendizaje automático
El éxito de los modelos de aprendizaje automático modernos, desde las
redes neuronales profundas hasta los sistemas de inteligencia artificial
generativa, depende críticamente de la precisión con la que se configuran sus
variables internas y externas. La optimización, en su sentido más amplio,
constituye el núcleo matemático que permite transformar un conjunto
desordenado de datos en un modelo con capacidad predictiva y una
generalización robusta. Este informe técnico analiza de manera exhaustiva los
algoritmos diseñados para la navegación en paisajes de pérdida complejos,
diferenciando entre el ajuste de parámetros internos y la optimización de hiper
parámetros externos, y evaluando las herramientas y estrategias que definen
el estado del arte en la disciplina.
Fundamentos de la optimización y la dualidad
entre parámetros e hiper parámetros
En el marco del aprendizaje automático, la optimización se define como
el proceso de búsqueda del conjunto de valores que minimiza o maximiza una
función objetivo, generalmente una función de pérdida que cuantifica el error
57
del modelo. La distinción entre parámetros e hiperparámetros es fundamental
para comprender la arquitectura de este proceso. Los parámetros son
variables internas que el modelo estima directamente a partir de los datos
durante la fase de entrenamiento, como los pesos y los sesgos en una red
neuronal o los coeficientes en un modelo de regresión (Mishra et al., 2025).
Estos valores definen la habilidad específica del modelo para resolver un
problema dado y se registran como parte del conocimiento adquirido.
Por el contrario, los hiper parámetros son configuraciones externas que
no pueden estimarse a partir de los datos y deben ser especificados por el
profesional antes de que comience el entrenamiento. Estos rigen el
comportamiento del algoritmo de aprendizaje, determinando aspectos como
la velocidad de ajuste (tasa de aprendizaje), la complejidad de la arquitectura
(número de capas o nodos) y la capacidad de regularización para evitar el
sobreajuste. La optimización de hiper parámetros (HPO), también conocida
como ajuste de hiper parámetros, busca identificar la configuración que
maximiza el rendimiento del modelo en datos no vistos, a menudo mediante
técnicas de validación cruzada para asegurar la estabilidad en el mundo real
La complejidad de la optimización en el aprendizaje profundo radica en
la naturaleza de la superficie de pérdida, que suele ser altamente no convexa,
con múltiples mínimos locales, llanuras extensas y puntos de silla en los que
el gradiente es cercano a cero. La superación de estos obstáculos requiere
algoritmos que no solo busquen el descenso más rápido, sino que también
incorporen mecanismos de inercia, adaptación y exploración global.
Algoritmos de optimización de primer orden
58
para el ajuste de parámetros
Los algoritmos de primer orden utilizan la información de la derivada
de la función de pérdida para actualizar los parámetros en la dirección opuesta
al gradiente, buscando el punto de mínima energía. El desarrollo de estos
métodos ha evolucionado desde el descenso de gradiente clásico hasta
técnicas adaptativas sofisticadas que gestionan la incertidumbre y el ruido en
los datos.
Descenso de gradiente estocástico y la introducción del
momentum
El descenso de gradiente estocástico (SGD) es el pilar fundamental de
la optimización en redes neuronales. A diferencia del descenso de gradiente
por lotes (Batch Gradient Descent), que calcula el gradiente sobre todo el
conjunto de datos, el SGD realiza actualizaciones utilizando una sola muestra
o un pequeño lote (mini-lote) de datos. Esta naturaleza estocástica permite
que el proceso sea computacionalmente eficiente y capaz de manejar
conjuntos de datos masivos, además de introducir una fluctuación que puede
ayudar al modelo a saltar fuera de mínimos locales deficientes (Tian et al.,
2023).
Sin embargo, el SGD tradicional enfrenta desafíos significativos en
regiones de la superficie de pérdida conocidas como cañones, donde la
curvatura es mucho más pronunciada en una dirección que en otra, lo que
provoca oscilaciones ineficientes. Para mitigar esto, se introdujo el concepto
de Momentum, que incorpora un término de velocidad para acumular los
gradientes de los pasos anteriores. La actualización se define
59
matemáticamente mediante la inclusión de un coeficiente de fricción que
suaviza la trayectoria:
Esta acumulación de inercia permite al optimizador mantener una
dirección constante y acelerar la convergencia en valles estrechos, lo que
reduce el ruido de las actualizaciones estocásticas.
Paradigmas adaptativos: AdaGrad, RMSProp y Adam
La sensibilidad del rendimiento a la tasa de aprendizaje llevó al
desarrollo de algoritmos que ajustan dinámicamente este valor para cada
parámetro individual. AdaGrad (Adaptive Gradient Algorithm) fue pionero en
este enfoque al escalar la tasa de aprendizaje inversamente proporcional a la
raíz cuadrada de la suma de los cuadrados de los gradientes históricos.
Aunque es excelente para tratar datos dispersos y características infrecuentes,
AdaGrad presenta una disminución monótona de la tasa de aprendizaje, lo que
puede detener el entrenamiento prematuramente.
Para corregir la agresividad de AdaGrad, RMSProp utiliza un promedio
móvil exponencial de los gradientes al cuadrado, lo que permite que el
algoritmo olvide los gradientes muy antiguos y mantenga una tasa de
aprendizaje efectiva durante todo el proceso. Esta innovación fue la base de
Adam (Adaptive Moment Estimation), que combina las ventajas de Momentum
y RMSProp al actualizar tanto el primer momento (media de los gradientes)
60
como el segundo momento (varianza no centrada).
AdaGrad ha demostrado ser extremadamente robusto y eficiente en una
amplia variedad de tareas de aprendizaje profundo, convirtiéndose en el
optimizador por defecto en muchos marcos de trabajo. No obstante, se ha
observado que, en ciertos contextos, puede presentar una falta de
generalización en comparación con el SGD con momentum bien sintonizado y
es susceptible de fluctuaciones extremas al enfrentarse a datos ruidosos
(véase la Tabla 9).
Tabla 9: Algoritmo según tareas de aprendizaje profundo
Mecanismo de
actualización
Ventaja
competitiva
Limitación principal
Gradiente puro por
muestra
Simplicidad y
eficiencia en
grandes datos
Convergencia lenta y
oscilatoria
Acumulación de
velocidad
Acelera en valles y
reduce ruido
Requiere ajuste
manual de
Suma histórica de
gradientes
cuadrados
Ideal para
características
dispersas
Desvanecimiento de
la tasa de aprendizaje
61
Promedio móvil de
gradientes
cuadrados
Estabiliza la tasa en
etapas tardías
Puede requerir ajuste
de hiperparámetros
Media y varianza de
gradientes
Convergencia rápida
y robustez
Posible sobreajuste
en mínimos agudos
Evolución hacia la estabilidad: AdamW, Yogi y Lion
La investigación contemporánea ha buscado refinar los algoritmos
adaptativos para mejorar su capacidad de generalización y su eficiencia en el
uso de la memoria. AdamW surge como una corrección necesaria al desacoplar
el decaimiento de los pesos (weight decay) de la actualización del gradiente
adaptativo, asegurando que la regularización se aplique de manera uniforme
independientemente de la magnitud del gradiente (Pinto, 2023).
Por otro lado, Yogi introduce un control más estricto sobre el aumento
de la tasa de aprendizaje efectiva, lo que previene que el optimizador realice
pasos excesivamente grandes ante gradientes ruidosos y mejora la estabilidad
en problemas no convexos complejos. Yogi se distingue por su capacidad para
manejar superficies de pérdida rugosas, en las que Adam podría fallar debido
a una adaptación excesivamente agresiva.
Una de las innovaciones más notables es Lion (EvoLved Sign
Momentum), un optimizador descubierto mediante algoritmos genéticos por
Google Brain. Lion utiliza únicamente el signo del gradiente acumulado, lo que
62
lo hace más eficiente en términos de memoria al no requerir almacenar los
cuadrados de los gradientes. Se ha observado que Lion supera a Adam en el
entrenamiento de Vision Transformers (ViT) y de modelos de difusión,
logrando una mayor precisión con menos cómputo, aunque requiere una tasa
de aprendizaje significativamente menor (3-10 veces menor que la de AdamW)
para mantener la estabilidad.
Estrategias avanzadas para la optimización de
hiperparámetros (HPO)
A diferencia de los parámetros, los hiperparámetros definen el espacio
en el que el modelo aprende. El ajuste de estos valores es un proceso intensivo
que requiere equilibrar la exploración de nuevas configuraciones con la
explotación de regiones del espacio de búsqueda que han mostrado buenos
resultados
Métodos de búsqueda no informados: rejilla y aleatoriedad
La búsqueda en Cuadrícula (Grid Search) es el enfoque más tradicional
y exhaustivo. Consiste en definir manualmente un subconjunto de valores para
cada hiperparámetro y evaluar todas las combinaciones posibles. Si bien
garantiza encontrar el mejor punto dentro de la red definida, Grid Search es
ineficiente en espacios de alta dimensión, ya que el número de modelos a
entrenar crece exponencialmente con cada nuevo hiperparámetro, un
fenómeno conocido como la maldición de la dimensionalidad
La Búsqueda Aleatoria (Random Search) reemplaza la enumeración
exhaustiva por una selección estocástica basada en distribuciones de
63
probabilidad. Sorprendentemente, la investigación ha demostrado que la
búsqueda aleatoria a menudo es más eficiente que la búsqueda en cuadrícula,
especialmente cuando solo un pequeño número de hiperparámetros afecta
realmente el rendimiento del modelo. Esto se debe a que Random Search
explora un mayor número de valores únicos en cada dimensión, lo que
aumenta las posibilidades de localizar los picos de rendimiento en el espacio
de búsqueda.
Optimización bayesiana y modelado de sustitutos
La optimización bayesiana representa un salto cualitativo al tratar el
ajuste de hiperparámetros como un problema de optimización de una función
de caja negra costosa de evaluar. Este método construye un modelo
probabilístico (sustituto) de la función de rendimiento a partir de los
resultados de iteraciones previas (Huang et al., 2025).. Existen dos enfoques
principales para el modelado sustituto en este contexto:
1. Procesos gaussianos (GP): Estos modelos asumen que la función de
rendimiento sigue una distribución normal multivariada. Proporcionan no
solo una predicción de la métrica objetivo, sino también una
cuantificación de la incertidumbre en cada punto del espacio. Aunque son
potentes en espacios continuos, su costo computacional escala
cúbicamente con el número de evaluaciones, lo que los hace menos
adecuados para búsquedas muy largas o para espacios de alta
dimensionalidad.
2. Estimador de Parzen Estructurado en Árbol (TPE): TPE es una técnica
no paramétrica que modela las distribuciones de probabilidad de los
hiperparámetros que conducen a buenos resultados ( ) y malos
64
resultados ( ) de forma separada. Al seleccionar puntos que
maximizan la relación entre estas densidades, TPE puede manejar de
forma eficiente hiperparámetros categóricos, discretos y condicionales
(como el número de neuronas en una capa, que solo existe si la red tiene
cierta profundidad).
La Optimización Bayesiana utiliza funciones de adquisición, como la
Mejora Esperada (Expected Improvement), para decidir cuál es la siguiente
configuración más prometedora para evaluar, logrando a menudo resultados
superiores en una fracción del tiempo requerido por los métodos no
bayesianos (Sun et al., 2025).
Comparativa de eficiencia en la sintonización de modelos
En estudios empíricos que comparan estos métodos, se observa una
diferencia drástica en la velocidad de convergencia. En un experimento de
optimización de un modelo Random Forest, se registraron los siguientes
resultados (véase la Tabla 10):
Tabla 10: Comparativa de eficiencia en la sintonización de modelos Random
forest
Método de HPO
Total de
ensayos
Iteración
óptima
Puntuación
(F1-score)
Tiempo de
ejecución
Grid Search
810
680
Máxima
Muy alto
65
Random Search
100
36
Mínima
El más bajo
Bayesiana
(TPE)
100
67
Máxima
Medio
Estos datos subrayan que, si bien la búsqueda aleatoria es rápida,
puede pasar por alto la configuración óptima, mientras que la optimización
bayesiana alcanza la misma precisión que la búsqueda exhaustiva, pero con
un ahorro de recursos de casi el 90% en términos de número de iteraciones.
Algoritmos metaheurísticos y bioinspirados
en la optimización de parámetros
Cuando los paisajes de pérdida son extremadamente irregulares o no
se dispone de información analítica sobre el gradiente, los algoritmos
metaheurísticos ofrecen una alternativa poderosa basada en la exploración
estocástica y en analogías con procesos naturales.
Algoritmos genéticos y evolutivos
Los algoritmos genéticos (GA) se basan en los principios de la evolución
biológica. Mantienen una población de soluciones candidatas que evolucionan
mediante mecanismos de selección de los más aptos, cruce (recombinación de
rasgos de dos padres) y mutación (alteraciones aleatorias para mantener la
66
diversidad). En el aprendizaje automático, los GA son particularmente útiles
para la búsqueda de arquitecturas neuronales (NAS) y para optimizar redes
en las que las funciones de activación no son derivables (Sayin et al., 2025).
La principal ventaja de los GA es su capacidad intrínseca para escapar
de los mínimos locales y explorar regiones del espacio de búsqueda. No
obstante, evaluar la aptitud de cada individuo en una población grande puede
resultar prohibitivamente caro, por lo que se requieren técnicas de
paralelización y, a veces, el uso de modelos sustitutos para acelerar la
evaluación.
Optimización por enjambre de partículas (PSO)
Inspirado en el comportamiento social de las bandadas de aves y los
bancos de peces, el algoritmo PSO utiliza un conjunto de partículas que se
mueven a través del espacio de búsqueda. Cada partícula ajusta su trayectoria
basándose en su propia mejor posición conocida y en la mejor posición
alcanzada por cualquier otro miembro del enjambre. PSO ha demostrado ser
eficaz en la optimización de los pesos de redes neuronales recurrentes,
logrando precisiones del 94 al 97% en tareas de clasificación complejas, a
menudo superando a los métodos basados en el gradiente en términos de
robustez frente a mínimos locales.
Recocido simulado y optimización inspirada en plantas
El Recocido Simulado (Simulated Annealing) es una técnica inspirada
en la metalurgia, en la que un material se calienta y se enfría lentamente para
alcanzar una estructura cristalina de mínima energía. En la optimización, el
algoritmo acepta soluciones peores con una probabilidad que disminuye con
67
el tiempo (enfriamiento), lo que le permite saltar fuera de las trampas locales
en las etapas iniciales de la búsqueda. Aunque es más lento que el descenso
de gradiente en funciones continuas, resulta extremadamente versátil para
problemas de optimización combinatoria y de ajuste de hiperparámetros en
espacios discretos.
Una frontera emergente en este campo es la optimización inspirada en
las plantas. Algoritmos como el Crecimiento de Rizomas o el Crecimiento
Fototrópico han demostrado superar estadísticamente a los algoritmos
inspirados en animales en el 97% de las funciones de referencia en espacios
de alta dimensión. Estas técnicas aprovechan la capacidad de las plantas para
distribuir recursos de manera descentralizada y resiliente, ofreciendo una
nueva perspectiva sobre cómo gestionar la exploración en paisajes de pérdida
extremadamente complejos.
Herramientas y ecosistemas de software para
la optimización masiva
La implementación práctica de estos algoritmos se facilita mediante
una serie de bibliotecas de código abierto y plataformas corporativas que
automatizan el proceso de experimentación y seguimiento.
Frameworks líderes: Optuna, Hyperopt y Ray Tune
Optuna: Actualmente es uno de los marcos más populares debido a su
API define-by-run, que permite a los usuarios definir el espacio de
búsqueda de forma imperativa mediante código Python estándar. Optuna
integra algoritmos de vanguardia como TPE y CMA-ES, y cuenta con un
68
sistema de poda (pruning) que detiene automáticamente los
experimentos que no muestran potencial, optimizando el uso de
GPU/CPU.
Hyperopt: Una de las bibliotecas más consolidadas, centrada en la
optimización bayesiana distribuida es especialmente robusta para su uso
con clústeres de Apache Spark o MongoDB, lo que permite escalar la
búsqueda de hiper parámetros a cientos de nodos de manera asíncrona
Ray Tune: Diseñado específicamente para la escalabilidad, permite
ejecutar barridos de hiper parámetros distribuidos con menos de 10
líneas de código. Es compatible con estrategias avanzadas como el
Entrenamiento Basado en Población (PBT) y con algoritmos de detección
temprana como Hyperband y ASHA, y constituye una herramienta
fundamental en entornos de entrenamiento de modelos a gran escala.
Plataformas de MLOps y gestión de experimentos
En el ámbito empresarial, herramientas como Weights & Biases (W&B)
y MLflow proporcionan la infraestructura necesaria para registrar cada
ejecución, visualizar las correlaciones entre hiper parámetros y métricas de
salida, y asegurar la reproducibilidad de los modelos. Estas plataformas
actúan como sistemas de registro que conectan el desarrollo del modelo con
su despliegue y monitoreo en producción (véase la Tabla 11).
Tabla 11: Plataformas de MLOps y gestión de experimentos en el ámbito
empresarial
69
Función principal
Soporte de
optimización
Compatibilidad
Experimentación y
visualización
Bayesiana y Grid
integrada
PyTorch, TF, Keras,
etc.
Ciclo de vida del
modelo
Requiere librerías
externas (Optuna)
Universal (REST API)
AutoML y
entrenamiento en
nube
Optimización
bayesiana nativa
Ecosistema AWS
Automatización
empresarial
HPO y selección de
modelos de auto.
Datos
estructurados/LLM
NAS e
infraestructura
cloud
Búsqueda de
arquitectura y HPO
Google Cloud
Platform
Desafíos cnicos en la optimización de
70
modelos de alta dimensión
A medida que los modelos transitan hacia escalas de billones de
parámetros, los desafíos de optimización se vuelven más agudos, lo que exige
innovaciones en eficiencia de cómputo y en estabilidad numérica.
La maldición de la dimensionalidad y los puntos de silla
En espacios de parámetros e hiperparámetros de alta dimensión, el
volumen del espacio crece tan rápido que los datos se vuelven dispersos, lo
que dificulta la identificación de regiones óptimas. Además, en redes
neuronales profundas, la presencia de puntos de silla es mucho más común
que la de mínimos locales (Barry et al., 2021). Los optimizadores modernos
deben ser capaces de navegar por estas regiones donde el gradiente es cero
pero el punto no es un mínimo, utilizando información de segundo orden
(Hessiana) o mecanismos de inercia que proporcionan el impulso necesario
para cruzar estas llanuras.
Robustez frente al ruido y generalización
Un problema persistente en la optimización es el compromiso entre la
precisión en el entrenamiento y la capacidad de generalización. Algoritmos
como Adam tienden a converger hacia mínimos agudos, que pueden ser muy
precisos en los datos de entrenamiento, pero fallan ante pequeñas variaciones
en los datos de prueba. En contraste, el SGD suele encontrar mínimos planos,
asociados con una mayor robustez y una mayor capacidad de generalización.
Optimizadores como Yogi y Lion han sido diseñados para mitigar este efecto,
buscando soluciones que mantengan la estabilidad incluso ante distribuciones
de datos cambiantes.
71
Sostenibilidad y eficiencia energética (LLMOps)
En la era de los Modelos de Lenguaje de Gran Tamaño (LLM), la
eficiencia del ajuste de hiper parámetros no es solo una cuestión de
rendimiento, sino de sostenibilidad. Las operaciones de LLMOps ponen
especial énfasis en minimizar los requisitos de potencia de cómputo. El uso de
algoritmos de multi-fidelidad, que permiten evaluar modelos en subconjuntos
de datos o con menos épocas antes de comprometer recursos masivos, se ha
vuelto una práctica estándar para reducir la huella de carbono y los costos
operativos de la IA.
Síntesis de hallazgos y perspectivas de futuro
en optimización
La trayectoria de los algoritmos de optimización refleja una transición
de métodos manuales y heurísticos a sistemas automatizados e inteligentes
que aprenden a optimizar.
La distinción entre parámetros e hiper parámetros sigue siendo el eje
en torno al cual se basa el entrenamiento de modelos. Mientras que los
parámetros se ajustan mediante gradientes cada vez más sofisticados que
incorporan momentos y adaptación (como AdamW y Lion), los hiper
parámetros requieren estrategias de nivel superior donde la optimización
bayesiana y los algoritmos evolutivos han demostrado ser los más eficaces
para navegar espacios complejos sin requerir un coste computacional
inasumible (Blume et al., 2021).
De cara al futuro, la integración de la inteligencia artificial en el propio
72
proceso de diseño de algoritmos (como lo demuestra el descubrimiento de
Lion) sugiere que los optimizadores del mañana serán cada vez más
específicos para cada dominio, capaces de adaptarse dinámicamente a la
arquitectura del modelo y a la naturaleza de los datos. Asimismo, el
surgimiento de la computación cuántica y los algoritmos inspirados en la
mecánica cuántica prometen abrir nuevas vías para resolver problemas de
optimización no convexos que actualmente están fuera del alcance de la
computación clásica.
En síntesis, la elección del algoritmo de optimización no debe
considerarse una decisión trivial, sino estratégica, que incide directamente en
la precisión, la capacidad de generalización y la viabilidad económica de
cualquier proyecto de aprendizaje automático. La adopción de marcos de
trabajo como Optuna o Ray Tune, junto con una comprensión profunda de las
dinámicas de convergencia de optimizadores como Adam, SGD o L-BFGS,
constituye la base necesaria para cualquier profesional que aspire a construir
sistemas de inteligencia artificial de alto rendimiento en el panorama
tecnológico actual y futuro.
73
Capítulo 4
Probabilidad y Estadística para
Machine Learning: Marco Integral
para el Análisis y la Toma de
Decisiones
La evolución contemporánea de la inteligencia artificial ha desplazado
el paradigma de la computación determinista hacia un modelo basado en la
gestión sistemática de la incertidumbre. En este contexto, la probabilidad y la
estadística no constituyen meras herramientas auxiliares, sino la
infraestructura ontológica sobre la que se erige el machine learning. La
capacidad de un algoritmo para aprender de los datos, generalizar patrones y
facilitar la toma de decisiones complejas en entornos ruidosos depende
intrínsecamente de su capacidad para cuantificar lo desconocido.
Este capítulo analiza en profundidad cómo las teorías matemáticas de
la probabilidad y los métodos de inferencia estadística convergen para
transformar datos en bruto en inteligencia accionable, explorando desde los
fundamentos axiomáticos hasta las aplicaciones avanzadas en sectores
estratégicos como las finanzas, la genética y los sistemas autónomos.
El imperativo probabilístico en el aprendizaje
automático
El modelado mediante machine learning surge precisamente como
74
respuesta a la imposibilidad de establecer correlaciones perfectas y
deterministas en el mundo real. Los datos recolectados suelen ser
incompletos, ruidosos y sujetos a una variabilidad inherente que los modelos
matemáticos tradicionales no pueden captar. Por tanto, la disciplina ha
adoptado un enfoque probabilístico que permite modelar no solo certezas, sino
también distribuciones de probabilidad. Esta perspectiva es crítica para
cuantificar la confianza de las predicciones y medir la seguridad con la que un
modelo estadístico opera en condiciones de incertidumbre
Definiciones fundamentales y espacios de eventos
Para comprender la mecánica del aprendizaje estadístico, es imperativo
establecer una base terminológica rigurosa. Una variable aleatoria se define
como la representación numérica de un fenómeno aleatorio, cuyos valores
posibles son los resultados de un proceso no determinista (García et al., 2013).
Estas se clasifican en dos categorías esenciales: discretas y continuas. Las
variables discretas asumen un número finito o infinito de valores, como el
número de correos electrónicos no deseados recibidos en un intervalo de
tiempo o el resultado binario de un diagnóstico médico. Por el contrario, las
variables continuas operan en un espectro infinito dentro de un rango
determinado, capturando magnitudes como la altura de un individuo, la
temperatura ambiental o la inversión financiera en un mercado volátil
El concepto de evento, definido como el conjunto de uno o más
resultados de un proceso aleatorio, permite estructurar el espacio muestral
sobre el cual operan los algoritmos La probabilidad de un evento , denotada
como , es una medida numérica de su verosimilitud que oscila
estrictamente entre 0 y 1 En el machine learning, esta noción se extiende
75
frecuentemente a la probabilidad condicional , que evalúa la
probabilidad de que ocurra el evento dado que el evento ya ha tenido
lugar. Esta relación es el motor de los modelos de regresión logística y de
clasificación, en los que se busca predecir un resultado (como el abandono de
un cliente o el riesgo de impago) a partir de características específicas
observadas en los datos de entrenamiento (García et al., 2013) (véase la Tabla
12).
Tabla 12: Ejemplos en machine learning según el tipo de variable
Tipo de Variable
Características
Ejemplos en Machine
Learning
Discreta
Valores contables y finitos.
Clases de clasificación,
recuento de eventos
(Poisson).
Continua
Valores en un rango
infinito.
Pesos de redes neuronales,
predicción de ingresos.
Determinista
Resultado previsible sin
error.
Programación clásica con
reglas fijas.
76
Probabilística
Incorpora el factor de azar.
Modelos de regresión,
procesos estocásticos.
El paradigma bayesiano: inferencia y
actualización de creencias
El teorema de Bayes es una de las proposiciones más influyentes del
cálculo de probabilidades y constituye el corazón de la inferencia bayesiana
en machine learning. Este teorema permite actualizar sistemáticamente las
creencias iniciales ante la llegada de nueva información empírica, lo que se
denomina invertir las probabilidades condicionales (Sun et al., 2025).
Mecánica del Teorema de Bayes
La fórmula fundamental del teorema establece que la probabilidad de
un evento dado un evento es igual a la probabilidad de dado ,
multiplicada por la probabilidad inicial de y dividida por la probabilidad
total de :
En el contexto del aprendizaje estadístico, los términos adquieren una
importancia operativa específica:
1. Probabilidad a priori ( ): Representa el conocimiento inicial o la
frecuencia marginal de un evento antes de considerar la evidencia actual
77
2. Verosimilitud ( ): Es la probabilidad de observar la evidencia
si la hipótesis fuera cierta
3. Probabilidad a posteriori ( ): Es el resultado final del análisis,
la probabilidad actualizada de la hipótesis tras observar los datos
4. Evidencia ( ): El factor de normalización que asegura que las
probabilidades sumen la unidad
Este enfoque se distingue por su naturaleza secuencial: la información
adicional adquirida modifica la probabilidad inicial, lo que permite que los
modelos se adapten dinámicamente. Aplicaciones prácticas de esta lógica
incluyen el filtrado de correo basura, en el que la aparición de ciertas palabras
clave (evidencia) modifica la probabilidad a priori de que un mensaje sea spam,
y el diagnóstico médico, en el que un resultado positivo en una prueba
actualiza la probabilidad a priori de padecer una enfermedad.
El clasificador Naïve Bayes
Una de las implementaciones más extendidas de esta teoría es el
clasificador Naïve Bayes (NBC), un modelo probabilístico que asume la
independencia condicional entre los atributos de entrada dada la clase.
Aunque esta suposición de independencia suele ser una simplificación excesiva
de la realidad de ahí el término ingenuo o naïve, el modelo es
extremadamente robusto, rápido de entrenar y eficaz en problemas de alta
dimensionalidad. La probabilidad posterior se obtiene mediante el producto
de las probabilidades condicionales individuales de cada atributo, lo que
reduce el crecimiento de parámetros de una escala exponencial a una lineal
78
Inferencia estadística y validación de modelos
Mientras que la probabilidad se ocupa de predecir resultados a partir
de parámetros conocidos, la estadística inferencial recorre el camino inverso:
utiliza muestras de datos para inferir las propiedades de una población
completa. En la ciencia de datos, este proceso es esencial para validar si los
patrones descubiertos por un algoritmo son generalizables o si son
simplemente producto del azar.
El contraste de hipótesis y el valor p
El rigor científico en la validación de modelos se basa en las pruebas de
hipótesis. El proceso se inicia con la formulación de la hipótesis nula ( ), que
postula que no existe un efecto o diferencia significativa entre los grupos
analizados, y la hipótesis alternativa ( ), que sugiere lo contrario.
La evaluación de estas hipótesis depende del cálculo del valor p (p-
value), que representa la probabilidad de observar los datos obtenidos (o unos
más extremos) asumiendo que es verdadera Si el valor p es inferior al nivel
de significancia (típicamente 0.05), se rechaza la hipótesis nula, concluyendo
que existe evidencia estadística para aceptar la intervención o el impacto
medido Este marco es fundamental para evaluar si, por ejemplo, una nueva
versión de un algoritmo de recomendación realmente mejora las ventas en
comparación con la versión anterior.
Tipos de pruebas y errores de decisión
La elección de la prueba estadística adecuada depende del diseño
79
experimental y de la naturaleza de los datos:
Pruebas t de Student: Se emplean para comparar las medias de dos
grupos. Pueden ser de una muestra, de dos muestras independientes o
pareadas (antes y después de un tratamiento)
ANOVA (Análisis de Varianza): Extensión de la prueba t para comparar
más de dos grupos simultáneamente
Prueba Chi-cuadrado ( ): Aplicada a variables categóricas para
determinar la asociación entre ellas, como la relación entre el género y
la preferencia de producto
Al realizar estas pruebas, es inevitable considerar la posibilidad de
errores. El error tipo I ocurre cuando se rechaza una hipótesis verdadera (falso
positivo), mientras que el error tipo II ocurre cuando se acepta una hipótesis
falsa (falso negativo). La potencia de una prueba estadística es la probabilidad
de detectar una diferencia verdadera y está influida directamente por el
tamaño de la muestra y la magnitud del efecto buscado.
Intervalos de confianza y estimación de parámetros
La estadística inferencial no solo busca rechazar hipótesis, sino también
estimar parámetros poblacionales mediante intervalos de confianza (IC). Un
IC del 95% indica que, si se repitiera el muestreo múltiples veces, el 95% de
los intervalos calculados contendrían el valor poblacional. Estos intervalos son
herramientas de transparencia cruciales, ya que comunican la precisión de las
estimaciones y permiten tomar decisiones informadas sobre la confiabilidad
de un modelo predictivo.
Análisis exploratorio de datos (EDA): la fase
80
de descubrimiento
Ningún modelo de machine learning puede ser efectivo si se ignora la
calidad y la estructura de los datos de entrada. El Análisis Exploratorio de
Datos (EDA) es un proceso iterativo y visual diseñado para comprender la
estructura de los datos, detectar anomalías y refinar las hipótesis iniciales
antes del modelado formal.
Tratamiento de datos ausentes y atípicos
Durante la etapa de limpieza de datos, el analista debe identificar y
gestionar las inconsistencias. Los datos ausentes representan un desafío
significativo para las técnicas de aprendizaje automático y pueden introducir
sesgos o errores de ejecución. Las estrategias comunes incluyen la eliminación
de registros incompletos (útil solo en grandes volúmenes de datos), la
imputación mediante la media o la mediana, o el uso de modelos predictivos
para estimar los valores faltantes a partir de otras variables.
La detección de datos atípicos (outliers) es igualmente crítica. Los
valores que difieren significativamente del resto pueden distorsionar los
cálculos de varianza y reducir la potencia de los análisis estadísticos. Sin
embargo, su tratamiento debe ser cuidadoso: mientras que algunos son
errores de recolección que deben eliminarse, otros pueden ser indicadores de
eventos raros pero legítimos (como fraudes bancarios) que el modelo debe ser
capaz de identificar.
Técnicas de visualización y resumen
El EDA se apoya extensamente en herramientas gráficas que permiten
81
discernir patrones invisibles en las tablas numéricas:
Histogramas y gráficos de densidad: identifican la forma de la
distribución y detectan comportamientos multimodales o sesgos.
Diagramas de caja (Boxplots): resumen la dispersión de los datos
mediante cuartiles y destacan visualmente los valores atípicos.
Gráficos de dispersión y matrices de correlación revelan la fuerza y la
dirección de las relaciones entre variables, lo que ayuda a seleccionar los
predictores más relevantes y a evitar la redundancia.
Este proceso de exploración no solo prepara el terreno para el
modelado, sino que a menudo conduce a hallazgos inesperados que cambian
la dirección de la investigación.
Distribuciones de probabilidad clave en el
aprendizaje estadístico
El comportamiento de los datos reales suele ajustarse a modelos
teóricos conocidos como distribuciones de probabilidad. Identificar qué
distribución sigue una variable es un paso previo necesario para aplicar
muchos algoritmos de machine learning.
La Distribución Normal y el Teorema Central del Límite
La distribución normal, o gaussiana, es el pilar de la estadística
paramétrica. Se caracteriza por ser simétrica respecto a su media y por estar
definida por su desviación estándar. Su importancia radica en el Teorema
Central del Límite, que establece que la suma de un gran número de variables
independientes e idénticamente distribuidas tiende a seguir una distribución
82
normal, independientemente de la distribución original de dichas variables.
Muchos algoritmos, como la regresión lineal y el análisis de componentes
principales (PCA), asumen la normalidad de los datos o de los residuos para
garantizar resultados óptimos
Distribuciones discretas: binomial y Poisson
En escenarios donde se trabaja con datos de recuento o eventos
binarios, se recurre a otras distribuciones:
Distribución Binomial: Modela el número de éxitos en una serie de
ensayos independientes, con una probabilidad fija de éxito . Es la base
para entender experimentos de Bernoulli y se aplica frecuentemente en
la clasificación binaria
Distribución de Poisson: utilizada para modelar la probabilidad de que
ocurra un número determinado de eventos en un intervalo fijo de tiempo
o de espacio, asumiendo una tasa de ocurrencia constante. Es ideal para
modelar llegadas de clientes a un servicio, llamadas a un centro de
atención o la aparición de defectos en una línea de producción
El conocimiento de estas distribuciones permite a los científicos de
datos realizar simulaciones probabilísticas y optimizar procesos mediante la
predicción de eventos futuros con base en frecuencias históricas.
Reducción de dimensionalidad: Análisis de
Componentes Principales (PCA)
En el machine learning moderno, es común enfrentarse a conjuntos de
83
datos con cientos de variables, lo que incrementa la complejidad
computacional y el riesgo de sobreajuste. El Análisis de Componentes
Principales (PCA) es una técnica estadística multivariante diseñada para
simplificar estos datos conservando la mayor cantidad de información posible.
Mecanismo matemático del PCA
El PCA transforma las variables originales, que suelen estar
correlacionadas, en un nuevo conjunto de variables no correlacionadas
llamadas componentes principales (PC). Este proceso implica varios pasos
críticos:
1. Normalización: Es imperativo estandarizar los datos para que todas las
variables tengan media 0 y desviación estándar 1, evitando que las
variables con escalas mayores dominen el análisis.
2. Matriz de Covarianza: Se calcula para identificar las correlaciones entre
las variables originales y comprender cómo varían conjuntamente.
3. Vectores y Valores Propios: Se obtienen a partir de la matriz de
covarianza. Los vectores propios definen la dirección de los nuevos
componentes (ejes), mientras que los valores propios indican la cantidad
de varianza que captura cada componente.
4. Selección de Componentes: El primer componente principal (PC1)
explica la mayor parte de la varianza total. El segundo componente (PC2)
captura la siguiente mayor varianza y es estrictamente perpendicular al
primero.
Aplicaciones estratégicas y de negocio
El PCA no es solo una técnica de preprocesamiento, sino también una
84
herramienta para el descubrimiento de estructuras ocultas. Sus aplicaciones
incluyen:
Visualización de datos de alta dimensión: proyectar datos complejos en
gráficos 2D o 3D para facilitar su interpretación
Compresión de imágenes: Reducir el tamaño de los archivos visuales
conservando los detalles esenciales
Optimización de campañas publicitarias: condensar múltiples métricas
(clics, impresiones, conversiones) para identificar qué factores impulsan
realmente el rendimiento del negocio
Detección de anomalías: Al identificar el patrón general de los datos, las
desviaciones significativas en el espacio de componentes principales se
hacen evidentes.
Teoría de la decisión estadística y funciones
de pérdida
La finalidad última de los modelos probabilísticos es facilitar la toma
de decisiones óptimas en entornos inciertos. La teoría de la decisión
proporciona un marco lógico para elegir entre diversas alternativas, basándose
en principios de coherencia y de maximización de la utilidad.
Elementos de un problema de decisión
Un problema de decisión se define formalmente mediante cuatro
elementos: el espacio de opciones (alternativas posibles), el espacio de eventos
inciertos (lo que puede hacer la naturaleza), las consecuencias de cada par de
opción-evento y la relación de preferencia entre dichas consecuencias. En este
85
ámbito, se suelen emplear diferentes estrategias de elección:
Criterio de Utilidad Esperada: Se asigna una utilidad a cada
consecuencia y se elige la opción que maximiza el promedio ponderado
de las utilidades de los eventos.
Estrategia Minimax (Pesimista): Se elige la opción cuya peor
consecuencia posible sea la menos perjudicial. Es una estrategia de
minimización del riesgo máximo.
Estrategia Optimista: Se basa en la mejor consecuencia posible de cada
opción.
Funciones de pérdida y minimización del riesgo
En machine learning, el proceso de entrenamiento de un modelo es, en
esencia, un problema de minimización del riesgo empírico. La función de
pérdida cuantifica qué tan incorrectas son las predicciones de un modelo
comparándolas con las etiquetas reales
Existen diversas funciones de pérdida según el objetivo del modelo:
Error Cuadrático Medio (ECM/L2): Penaliza drásticamente los errores
grandes al elevar la diferencia al cuadrado. Es ideal cuando los errores
atípicos se consideran importantes y deben ser evitados a toda costa
Error Absoluto Medio (MAE/L1): Trata todos los errores con el mismo
peso, independientemente de su magnitud. Es más robusto frente a
valores atípicos que el ECM.
Pérdida de Huber: Combina las ventajas de L1 y L2, siendo cuadrática
para errores pequeños y lineal para los grandes, lo que reduce la
sensibilidad a los valores atípicos extremos
86
Entropía cruzada: Se utiliza en problemas de clasificación para medir la
diferencia entre las distribuciones de probabilidad reales y las predichas.
El objetivo fundamental es encontrar los parámetros del modelo (pesos
y sesgos) que minimicen la función de pérdida sobre los datos de
entrenamiento, utilizando algoritmos de optimización como el descenso de
gradiente.
Modelado avanzado: redes bayesianas y
procesos gaussianos
Para abordar problemas complejos en los que las dependencias entre
variables no son lineales ni directas, la inteligencia artificial utiliza modelos
probabilísticos gráficos. Estos sistemas permiten razonar sobre la
incertidumbre al combinar la teoría de grafos con la teoría de la probabilidad
(Sun et al., 2025).
Redes Bayesianas y Razonamiento Causal
Una red bayesiana (RB) es una representación gráfica de dependencias
en la que los nodos representan variables aleatorias y los arcos dirigidos
representan relaciones de dependencia directa. Estas redes son potentes
herramientas generativas y predictivas porque permiten:
Incorporar conocimiento experto: Se pueden definir estructuras y
probabilidades a priori basadas en el saber de profesionales del dominio
(como genetistas o médicos)
Manejar datos incompletos: Las RB pueden realizar inferencias incluso
cuando faltan valores de algunas variables, utilizando la información de
87
los nodos adyacentes para estimar las probabilidades
Interpretabilidad: A diferencia de las redes neuronales de caja negra,
las RB ofrecen una estructura transparente que permite entender el
porqué de una decisión, lo cual es crítico en finanzas y salud.
Aplicaciones prácticas de las RB incluyen el diagnóstico de fallos en
procesadores (Intel), la predicción de errores en redes de software definidas
por API, y la mejora genética vegetal para maximizar la calidad de los cultivos
Procesos gaussianos y cuantificación de la confianza
Los procesos gaussianos (GP) proporcionan un enfoque no paramétrico
para la regresión. En lugar de predecir un único valor escalar, un GP ofrece
una distribución de posibles funciones que pasan por los puntos de datos
observados. Esto se traduce en una predicción acompañada de un intervalo de
confianza claro: donde hay pocos datos, la incertidumbre aumenta, lo que
alerta al decisor sobre la falta de fiabilidad del modelo en esa región del
espacio. Se utilizan ampliamente en la robótica para adaptar trayectorias en
entornos inciertos y en la previsión de series temporales financieras.
Estadística vs. Machine Learning:
Convergencia y Diferencias Epistemológicas
A menudo se confunden los términos, pero su lógica inferencial y sus
objetivos prácticos difieren profundamente. La estadística inferencial busca
entender y explicar las relaciones causales a partir de supuestos teóricos
estrictos y de muestras limitadas. Su métrica de éxito es la significación
estadística y la interpretabilidad de los parámetros
88
Por el contrario, el machine learning prioriza la precisión predictiva y la
generalización a nuevos datos, operando con frecuencia sin asumir una forma
funcional específica y manejando volúmenes masivos de información. Mientras
que un estadístico preguntaría: ¿Cómo afecta la variable X a la variable Y?, un
ingeniero de ML preguntaría: ¿Qué tan bien puedo predecir Y a partir de X? En
la práctica moderna, el científico de datos más eficaz es aquel que integra
ambos enfoques: utiliza la estadística para validar hipótesis y limpiar datos, y
el machine learning para escalar predicciones y automatizar procesos
complejos
El ciclo de vida del proyecto de Machine
Learning Estadístico
La implementación exitosa de estas técnicas en la empresa sigue un
proceso estructurado:
1. Definición del objetivo empresarial: Identificar problemas que generen
valor tangible y criterios de éxito medibles
2. Preprocesamiento de datos: Limpieza, normalización y transformación
de datos en bruto para asegurar que sean pertinentes y estructurados
3. Modelado y entrenamiento: selección de algoritmos probabilísticos y
ajuste de parámetros mediante la minimización de funciones de pérdida.
4. Evaluación y optimización: Uso de métricas avanzadas (Accuracy, Recall,
Precision, F1-Score) para medir el rendimiento sobre datos no vistos y
ajustar hiperparámetros
5. Despliegue y mejora continua: Los sistemas deben adaptarse y
aprender a partir de los nuevos datos que procesan en tiempo real,
89
mejorando progresivamente su precisión.
La probabilidad y la estadística no son meros requisitos académicos
para el estudio del machine learning; son las leyes fundamentales que rigen
el comportamiento de los algoritmos en un universo incierto. Desde el Teorema
de Bayes, que permite la actualización dinámica del conocimiento, hasta el
PCA, que destila la esencia de los datos multidimensionales, cada técnica
analizada contribuye a la creación de sistemas de IA más robustos,
interpretables y precisos.
Para las organizaciones, la inversión en estas capacidades analíticas se
traduce en mejoras directas en la toma de decisiones, la optimización de
recursos y una comprensión más profunda del comportamiento del cliente. La
transición de un enfoque reactivo basado en la intuición a un modelo proactivo
basado en datos probabilísticos es hoy en día una ventaja competitiva
insalvable. En última instancia, el dominio de la probabilidad y la estadística
permite a los profesionales no solo predecir lo que ocurrirá, sino también
cuantificar con qué grado de certeza ocurrirá, transformando el riesgo en una
variable gestionable y estratégica
90
Capítulo 5
El Cálculo Multivariable como Eje
Vertebrador del Entrenamiento
de Redes Neuronales Profundas
La revolución del aprendizaje profundo ha transformado sectores
enteros, desde la visión por computadora hasta el procesamiento del lenguaje
natural, y se ha consolidado como el paradigma más exitoso en el campo del
aprendizaje automático. Este éxito no es una coincidencia tecnológica aislada,
sino el resultado de la aplicación rigurosa de principios matemáticos
fundamentales.
En el núcleo de esta capacidad de aprendizaje reside el cálculo
multivariable, una rama de las matemáticas que proporciona el marco teórico
y las herramientas computacionales necesarias para optimizar funciones
complejas en espacios de parámetros de dimensiones extremadamente altas.
El entrenamiento de una red neuronal es, en su esencia más pura, un problema
de optimización en el que el cálculo permite navegar por un paisaje de pérdida
intrincado para encontrar configuraciones de pesos que minimicen el error.
Fundamentos Matemáticos del Aprendizaje
Profundo
Para comprender la importancia del cálculo multivariable en la
inteligencia artificial moderna, es imperativo analizar la tríada matemática que
91
sustenta el aprendizaje profundo: el álgebra lineal, la teoría de la probabilidad
y el cálculo multivariable. El álgebra lineal ofrece un lenguaje para representar
los datos y los parámetros del modelo mediante tensores, matrices y vectores.
La teoría de la probabilidad permite cuantificar la incertidumbre, gestionar la
inicialización aleatoria de los pesos y modelar la distribución de los datos de
entrada. Sin embargo, es el cálculo multivariable el que insufla vida a estas
estructuras estáticas, transformándolas en sistemas dinámicos capaces de
aprender mediante el ajuste iterativo (Murad et al., 2021).
El aprendizaje profundo utiliza redes neuronales multicapa entrenadas
con grandes conjuntos de datos para resolver tareas complejas de
procesamiento de información Cada capa de la red realiza una transformación
matemática de los datos recibidos, y el cálculo multivariable es el encargado
de determinar cómo cada pequeño cambio en los parámetros de estas
transformaciones afecta al rendimiento global del sistema Sin esta capacidad
de análisis de sensibilidad, las redes neuronales serían incapaces de corregir
sus errores de manera sistemática.
La Función de Pérdida y el Objetivo de Optimización
El proceso de entrenamiento comienza con la definición de una función
de pérdida o coste ( ), que sirve como indicador de la precisión del modelo.
Esta función toma las predicciones de la red y las compara con las etiquetas
reales o con los valores objetivos. En términos de cálculo, la función de pérdida
es una función escalar de múltiples variables, donde las variables son los
pesos ( ) y los sesgos ( ) de todas las capas de la red (véase la Tabla 13).
92
Tabla 13: Proceso de entrenamiento y precisión del algoritmo
Componente Matemático
Descripción en el Contexto
de Redes Neuronales
Impacto en el
Entrenamiento
Parámetros ( )
Conjunto de todos los pesos
y sesgos del modelo.
Define la capacidad de
representación de la red.
Espacio de Parámetros
Espacio de alta dimensión
en el que cada punto
corresponde a una
configuración de la red.
La topología de este espacio
determina la facilidad de
entrenamiento.
Función de Pérdida ( )
Superficie escalar que
asigna parámetros a un
error.
Proporciona la señal
necesaria para ajustar los
pesos.
Gradiente ( )
Vector de derivadas
parciales con respecto a
cada parámetro.
Indica la dirección de mayor
crecimiento del error.
El objetivo fundamental del entrenamiento es encontrar el conjunto de
parámetros que minimice la función de pérdida:
93
Para lograr esto en redes que contienen millones de parámetros, se
emplea el descenso de gradiente, un método iterativo que utiliza la
información derivada del cálculo multivariable para descender por la superficie
de pérdida hasta alcanzar un mínimo local o global
El Descenso de Gradiente y la Geometría del
Aprendizaje
El descenso de gradiente es el algoritmo de optimización más utilizado
en el aprendizaje profundo. Su funcionamiento se basa en una propiedad
fundamental del gradiente: en cualquier punto de una superficie diferenciable,
el vector del gradiente apunta en la dirección del ascenso más pronunciado.
Por lo tanto, para reducir el error, el algoritmo debe desplazar los parámetros
en la dirección opuesta al gradiente (Zhu et al., 2022).
El Gradiente como Vector de Sensibilidades
En el contexto multivariable, el gradiente de la función de pérdida
es un vector que contiene las derivadas parciales de con respecto a cada
uno de los parámetros del modelo:
Cada componente representa la sensibilidad de la pérdida ante un
94
cambio infinitesimal en el parámetro . Si una derivada parcial es positiva,
aumentar el parámetro aumentará la pérdida; si es negativa, disminuirlo
disminuirá la pérdida. El cálculo multivariable permite que el modelo realice
ajustes simultáneos en todas las dimensiones del espacio de parámetros,
coordinando la actualización de millones de pesos para mejorar el rendimiento
colectivo del sistema.
Regla de Actualización y Tasa de Aprendizaje
La actualización de los parámetros se realiza mediante la siguiente
regla:
Aquí, representa la tasa de aprendizaje, un hiper parámetro crítico
que controla el tamaño del paso dado en la dirección del gradiente negativo.
Si la tasa de aprendizaje es demasiado alta, el sistema puede sobrepasar el
mínimo y divergir; si es demasiado baja, el entrenamiento será excesivamente
lento y puede quedar atrapado en regiones de la superficie de pérdida con
pendientes insignificantes. La determinación de la tasa de aprendizaje óptima
está íntimamente ligada a la curvatura de la función de pérdida, la cual se
analiza mediante derivadas de segundo orden organizadas en la matriz
hessiana.
Retropropagación: La Regla de la Cadena en
Redes Profundas
La retropropagación (backpropagation) es el algoritmo que permite
95
calcular de manera eficiente el gradiente de la función de pérdida con respecto
a todos los pesos de una red neuronal multicapa. Aunque a menudo se
presenta como un concepto complejo, la retropropagación es,
fundamentalmente, la aplicación sistemática de la regla de la cadena del
cálculo multivariable a un grafo de computación (Kim et al., 2021).
De la Regla de la Cadena Univariable a la Multivariable
En el cálculo básico, si , la derivada de con respecto a
se obtiene multiplicando las derivadas de las funciones componentes:
. Sin embargo, en una red neuronal, la salida de una neurona de
la capa suele influir en múltiples neuronas de la capa . Esto requiere la
versión multivariable de la regla de la cadena, donde las contribuciones al
error de cada camino se suman
Si una función de pérdida depende de variables intermedias
, y cada una de estas variables depende a su vez de un peso
, la derivada total de con respecto a es la suma de los productos de las
derivadas parciales a lo largo de todos los caminos posibles:
Esta suma refleja cómo se distribuye el error a lo largo de la
arquitectura de la red. La retropropagación aprovecha esta estructura
procesando los gradientes desde la capa de salida hacia la capa de entrada,
96
reutilizando cálculos intermedios para evitar la explosión combinatoria que
ocurriría si se calculara cada derivada de forma independiente
El Papel de las Funciones de Activación
El cálculo de los gradientes depende intrínsecamente de la
diferenciabilidad de las funciones de activación. Estas funciones introducen la
no linealidad necesaria para que la red aprenda patrones complejos. En el
proceso de retropropagación, la derivada de la función de activación actúa
como un modulador del gradiente que fluye a través de la neurona (Akter y
Haider, 2025)
Por ejemplo, al utilizar la función sigmoide , su derivada
tiene la propiedad conveniente de poder expresarse en términos de la propia
salida . Esta propiedad simplifica enormemente el
cálculo del gradiente, permitiendo actualizaciones rápidas de los pesos
basándose únicamente en los valores de activación ya calculados durante el
paso hacia adelante (véase la Tabla 14).
Tabla 14: Función de activación y el impacto en el flujo de gradiente
Definición
Matemática
Derivada (za)
Impacto en el flujo
de gradiente
Tiende a saturarse, lo
que provoca el
desvanecimiento del
97
gradiente.
Centrada en cero, con
una convergencia
superior a la de la
sigmoide.
si , else
Evita el
desvanecimiento del
gradiente en los
valores positivos.
Jacobiana compleja
Crucial para la
clasificación
multiclase.
Análisis de Sensibilidad mediante la Matriz
Jacobiana
Mientras que el gradiente es un vector para funciones escalares,
muchas operaciones en el aprendizaje profundo son funciones de valor
vectorial, en las que una capa transforma un vector de entrada en otro. Para
describir la sensibilidad completa de cada salida respecto de cada entrada, se
utiliza la matriz jacobiana ( ) (Sayin et al., 2025).
98
Estructura y Propiedades de la Jacobiana
Para una función , la Jacobiana es una matriz de
dimensiones donde el elemento en la fila y columna es la derivada
parcial de la -ésima salida con respecto a la -ésima entrada:
En la retropropagación, la Jacobiana representa la transformación
lineal local de la capa. El producto vector-Jacobiano (VJP) es el mecanismo
matemático exacto mediante el cual el gradiente de la pérdida con respecto a
las salidas de una capa se convierte en el gradiente con respecto a sus
entradas. Frameworks como PyTorch y TensorFlow automatizan este proceso
al rastrear las operaciones hacia adelante y aplicar los VJP correspondientes
en orden inverso.
Estabilidad de la Jacobiana e Inicialización de Pesos
La estabilidad del entrenamiento depende críticamente de que las
normas de las matrices jacobianas de cada capa no se desvíen excesivamente
de la unidad. Si el producto de las Jacobianas a lo largo de muchas capas tiene
valores singulares muy superiores a 1, los gradientes explotarán; si son muy
inferiores a 1, los gradientes se desvanecerán, deteniendo el aprendizaje en
las capas iniciales El análisis basado en el cálculo de estas matrices ha
permitido desarrollar esquemas de inicialización, como la inicialización de
Xavier o He, que garantizan que la varianza de las activaciones y los gradientes
99
se mantenga constante a través de la profundidad de la red.
La Matriz Hessiana y la Curvatura del Paisaje
de Pérdida
Para comprender no sólo la dirección de descenso, sino también la
eficiencia y estabilidad del entrenamiento, es necesario recurrir a las derivadas
de segundo orden, capturadas en la matriz hessiana ( ) La hessiana es una
matriz cuadrada que contiene todas las derivadas parciales de segundo orden
de la función de pérdida con respecto a los parámetros
Curvatura y el hiper parámetro de estabilidad
La hessiana describe la curvatura local de la superficie de pérdida. Sus
autovalores ( ) indican cuán rápido varía el gradiente en distintas direcciones.
Una dirección con un autovalor grande corresponde a una cañada estrecha
con paredes empinadas (alta curvatura), mientras que un autovalor pequeño
indica una región plana (baja curvatura) (Lee, 2023).
La estabilidad del descenso de gradiente está determinada por el
autovalor máximo de la Hessiana, a menudo denominado nitidez (sharpness).
Si el paso de actualización es mayor que la inversa de la nitidez, el algoritmo
puede oscilar violentamente o incluso saltar fuera de la región de
convergencia.
El fenómeno del borde de estabilidad (Edge of Stability)
Investigaciones recientes han revelado un comportamiento fascinante
en el entrenamiento de redes neuronales profundas conocido como el Borde
100
de Estabilidad (EoS). Durante el entrenamiento con una tasa de aprendizaje
constante , se observa que la nitidez de la Hessiana aumenta
progresivamente hasta alcanzar un umbral crítico de . En este punto, el
entrenamiento entra en una fase donde la pérdida deja de disminuir de forma
monótona y comienza a oscilar, pero el algoritmo se auto-estabiliza
manteniendo la nitidez cerca de este valor crítico.
Este aumento de nitidez se debe a la alineación de las matrices
jacobianas de las capas. A medida que el modelo aprende, los vectores
singulares de las Jacobianas de capas consecutivas se alinean, lo que significa
que pequeños cambios en las entradas o en las capas iniciales provocan
cambios masivos en la salida final de la red. Este fenómeno subraya cómo la
dinámica del entrenamiento está dictada por las propiedades geométricas
profundas del cálculo multivariable (véase la Tabla 15).
Tabla 15: Dinámica de entrenamiento y las propiedades geométricas
Característica de la
hessiana
Significado Geométrico
Implicación para el
Entrenamiento
Autovalores Grandes
( )
Curvatura alta (región
afilada).
Requiere tasas de
aprendizaje bajas para evitar
la inestabilidad.
Autovalores Pequeños
Región plana (meseta).
El entrenamiento puede
estancarse debido a
101
( )
gradientes casi nulos.
Autovalores Negativos
( )
Curvatura hacia abajo.
Indica la presencia de un
punto de ensilladura o de un
máximo local.
Nitidez ( )
Peor curvatura local.
Define el límite superior de la
tasa de aprendizaje estable
().
Cálculo de Variaciones y Operadores en Redes
Convolucionales (CNN)
Las redes neuronales convolucionales (CNN) presentan un desafío
matemático único: el uso de la operación de convolución para extraer
características espaciales de imágenes y de cuadrículas de datos. Aunque
computacionalmente eficiente, el análisis de sus gradientes requiere una
comprensión matizada del cálculo aplicado a funciones definidas sobre
dominios discretos.
La Dualidad Convolución-Correlación Cruzada
En el paso hacia adelante (forward pass), una CNN aplica un filtro o
núcleo (kernel) una imagen de entrada . La operación, aunque a menudo
102
se denomina convolución en las bibliotecas de aprendizaje profundo, es
técnicamente una correlación cruzada. El valor en la posición del mapa
de características resultante es:
El cálculo multivariable revela una elegante dualidad durante el paso
hacia atrás (backward pass). Para encontrar el gradiente de la rdida con
respecto a los pesos del filtro ( ), el algoritmo realiza una operación de
correlación cruzada entre la imagen de entrada y el gradiente proveniente de
la capa siguiente. Por otro lado, para calcular el gradiente con respecto a la
imagen de entrada ( ) y así continuar la retropropagación, se debe realizar
una convolución completa entre el gradiente de salida y el filtro original girado
180 grados. Esta rotación no es una decisión de diseño arbitraria, sino una
consecuencia directa de las derivadas parciales de la operación de suma
ponderada deslizante.
Invarianza Espacial y Compartición de Pesos
La compartición de pesos en las CNN, donde el mismo filtro se aplica a
toda la imagen, significa que cada peso del filtro contribuye a múltiples píxeles
de la salida Según la regla de la cadena multivariable, el gradiente total para
un solo peso del filtro es la suma de las contribuciones de todos los píxeles de
salida donde se aplicó ese peso Esta agregación de gradientes es lo que
permite a las CNN aprender detectores de características que son efectivos
independientemente de la posición de la característica en la imagen
103
Retropropagación a través del tiempo (BPTT)
en redes recurrentes
Las redes neuronales recurrentes (RNN) extienden el cálculo
multivariable al dominio temporal, lo que permite procesar secuencias de
longitud variable. En una RNN, el estado oculto en el tiempo t es una función
del estado oculto anterior t1 y de la entrada actual t.
Dependencias Temporales y la Cadena de Jacobianas
Debido a la estructura recursiva , un peso
influye en la pérdida final a través de su efecto en cada paso de tiempo
individual y de cómo ese efecto se propaga a los estados futuros. La derivada
total de la pérdida con respecto a se formula como una suma sobre el
tiempo:
Donde representa el error acumulado desde el final de la secuencia
hasta el tiempo 4 Este término se calcula retropropagando a través de los
pasos de tiempo, lo que implica multiplicar una cadena de matrices jacobianas
de la función de transición de estado (Sandubete et al., 2023).
El problema de la explosión y desvanecimiento de
gradientes
104
El análisis del cálculo en RNNs muestra que la derivada del estado
oculto final respecto de un estado inicial da lugar a un producto de términos
. Si los autovalores de estas matrices Jacobianas son
consistentemente mayores que 1, el gradiente crecerá exponencialmente
(explosión); si son menores que 1, decrecerá exponencialmente
(desvanecimiento), impidiendo que la red aprenda dependencias a largo plazo
El uso de funciones como la tangente hiperbólica (Tanh) ayuda a mitigar esto
al acotar las activaciones, pero arquitecturas más complejas como LSTM o GRU
se diseñaron específicamente basándose en estos principios de cálculo para
crear vías rápidas donde el gradiente pueda fluir sin ser multiplicado
repetidamente por valores pequeños.
Optimizadores Avanzados: Aproximaciones de
Momentos de Orden Superior
Mientras que el descenso de gradiente simple utiliza solo la primera
derivada, los optimizadores modernos como Adam, RMSprop y los métodos de
segundo orden buscan aprovechar la información de la curvatura para acelerar
la convergencia (Zaznov et al., 2025).
Adam y la Adaptación Paramétrica
El optimizador Adam (Adaptive Moment Estimation) es ampliamente
utilizado por su robustez en entornos con funciones de pérdida complejas.
Matemáticamente, Adam estima los dos primeros momentos de los gradientes:
la media (primer momento) y la varianza no centrada (segundo momento).
1. Estimación del primer momento: que actúa como un promedio móvil del
105
gradiente para proporcionar inercia (momentum).
2. Estimación del Segundo Momento: que rastrea la magnitud de las
oscilaciones de los gradientes.
Al actualizar los pesos, Adam escala el paso de aprendizaje de cada
parámetro inversamente proporcional a la raíz cuadrada del segundo
momento de ese parámetro. Esto significa que los parámetros con gradientes
altamente volátiles reciben actualizaciones más cautelosas, mientras que
aquellos en regiones planas reciben pasos más grandes, compensando de
manera efectiva la falta de información de segundo orden directa sin el costo
computacional de invertir la Hessiana.
Métodos de Segundo Orden y K-FAC
Para ir más allá de las aproximaciones de primer orden, se han
desarrollado métodos como el de Newton o el de gradiente natural. El
Gradiente Natural utiliza la métrica de información de Fisher en lugar de la
Hessiana estándar para realizar actualizaciones invariantes a la
reparametrización del modelo (Blanco y Cervera, 2003).
Una de las técnicas más prometedoras es la Curvatura Aproximada
Factorizada de Kronecker (K-FAC). K-FAC aproxima la matriz de Fisher (o la
Hessiana de Gauss-Newton generalizada, GGN) como un producto de
Kronecker de matrices más pequeñas para cada capa, lo que permite su
inversión eficiente. Este enfoque ha demostrado reducir significativamente el
número de iteraciones necesarias para el entrenamiento, lo que se traduce en
una reducción de 50-75% en el tiempo de computación en arquitecturas
modernas como las Transformers.
106
Geometría y Topología de Paisajes de Pérdida
en Alta Dimensión
La comprensión del éxito del aprendizaje profundo requiere mirar más
allá de los puntos críticos locales y considerar la topología global de la
superficie de pérdida. En espacios de millones de dimensiones, nuestra
intuición basada en el mundo físico de tres dimensiones suele ser errónea
La proliferación de puntos de ensilladura
Históricamente, se temía que los mínimos locales con errores elevados
fueran el principal obstáculo para el entrenamiento de redes profundas. Sin
embargo, el análisis mediante cálculo multivariable y teoría de matrices
aleatorias indica que, en altas dimensiones, es extremadamente improbable
encontrar mínimos locales de alta energía. En su lugar, lo que abunda son los
puntos de ensilladura (saddle points), donde la Hessiana tiene tanto
autovalores positivos como negativos
En un punto de ensilladura, la superficie se curva hacia arriba en
algunas direcciones y hacia abajo en otras. Mientras que el descenso de
gradiente de primer orden puede estancarse temporalmente en las mesetas
que rodean estos puntos, el algoritmo suele encontrar, con el tiempo, una
dirección de curvatura negativa por la que escapar. Los métodos de segundo
orden son teóricamente superiores para navegar por estas regiones, ya que
pueden identificar y seguir activamente las direcciones de descenso más
rápidas, incluso cuando el gradiente es casi nulo (Safari et al., 2020).
Paisajes Convexos vs. Caóticos
107
La arquitectura de la red tiene un impacto dramático en la suavidad de
la superficie de pérdida. A medida que las redes se vuelven más profundas, el
paisaje de pérdida tiende a transicionar de regiones casi convexas a superficies
altamente caóticas y fractales. Esta transición suele coincidir con una caída de
la capacidad de entrenamiento y un aumento del error de generalización.
Técnicas como las conexiones residuales (skip connections) en las Reses han
demostrado matemáticamente aplanar o suavizar este paisaje, permitiendo
que el gradiente fluya de manera más predecible y facilitando la convergencia
en redes de cientos de capas.
El Papel del Cálculo en la Generalización y la
Robustez
El cálculo multivariable no solo explica cómo las redes neuronales
minimizan el error en el conjunto de entrenamiento, sino que también ofrece
pistas sobre por qué estos modelos funcionan tan bien con datos nuevos.
Mínimos Planos y el Principio de Estabilidad
Se ha observado empíricamente que los mínimos planos (aquellos en
los que la hessiana tiene autovalores pequeños en la mayoría de las
direcciones) tienden a generalizar mucho mejor que los mínimos afilados. Un
plano mínimo significa que pequeñas perturbaciones en los parámetros
(debidas al ruido de los datos o a la precisión numérica) no cambian
drásticamente la salida del modelo, lo que indica una mayor robustez.
Algoritmos recientes, como la Minimización Consciente de la Nitidez
(Sharpness-Aware Minimization, SAM), integran este concepto de cálculo
108
directamente en el ciclo de entrenamiento. En lugar de simplemente buscar
un punto con pérdida mínima, SAM busca regiones donde la pérdida sea
uniformemente baja en un vecindario de los parámetros, penalizando
efectivamente las direcciones de alta curvatura en la matriz de Hessiana.
Regularización basada en jacobianas y hessianas
Para mejorar la robustez frente a ataques adversarios, se emplean
técnicas de regularización que limitan explícitamente la norma de las matrices
jacobianas y hessianas del modelo con respecto a sus entradas. Al reducir la
magnitud de las derivadas parciales de primer y segundo orden, se asegura
que el modelo sea menos sensible a pequeñas perturbaciones maliciosas en
las imágenes o en los datos de entrada (Sariev y Germano, 2020). Este enfoque
generaliza los esfuerzos previos de robustez, lo que permite construir
clasificadores que no solo son precisos, sino también estables ante cambios
en el entorno.
El análisis exhaustivo presentado demuestra que el cálculo
multivariable no es solo un requisito académico para el estudio de la
inteligencia artificial, sino también la herramienta fundamental que hace
posible el aprendizaje en máquinas complejas. Desde la derivación de la
retropropagación hasta el análisis de la estabilidad en el borde de nitidez, cada
avance significativo en el campo ha estado anclado en principios de
diferenciación y optimización.
La capacidad de calcular gradientes en grafos de computación masivos
ha democratizado el aprendizaje profundo, permitiendo a investigadores y
desarrolladores entrenar modelos con miles de millones de parámetros. Sin
embargo, como muestra el estudio de los paisajes de pérdida y de la dinámica
109
de las Jacobianas, aún queda mucho por descubrir sobre la interacción entre
la arquitectura del modelo y la topología de la optimización.
El futuro del campo probablemente resida en una integración aún más
estrecha entre el cálculo geométrico y la ingeniería de sistemas, que busque
optimizadores que no solo desciendan gradientes, sino que comprendan y
naveguen activamente por la compleja curvatura del espacio de parámetros
de alta dimensión. La transición hacia métodos de segundo orden más
eficientes y la comprensión de la autoestabilización en el entrenamiento
profundo son las fronteras en las que el cálculo multivariable seguirá
definiendo los límites de lo que la inteligencia artificial puede alcanzar.
110
Capítulo 6
Arquitectura Geométrica y
Transformaciones
Trigonométricas en el Aprendizaje
de Máquina
La intersección entre la geometría, la trigonometría y el aprendizaje
automático constituye uno de los pilares más sofisticados de la ciencia de
datos contemporánea. Lejos de ser meras herramientas de cálculo auxiliar,
estas disciplinas proporcionan la fundamentación lógica y estructural
necesaria para que los algoritmos puedan razonar sobre la forma y la
periodicidad de los datos.
La geometría aporta una formación lógica que permite una
comprensión profunda de las aplicaciones complejas, desde la aeronáutica
hasta la ingeniería de sistemas masivos, mientras que la trigonometría,
originada en las necesidades de la astronomía, se ha convertido en un
instrumento imprescindible en áreas técnicas y científicas que requieren el
manejo de ciclos y rotaciones. En el contexto del aprendizaje de máquina, este
marco matemático permite la creación de fronteras de decisión robustas, la
proyección de datos en variedades de baja dimensionalidad y la optimización
de redes neuronales a través de paisajes de pérdida cuya topología define la
capacidad de generalización del modelo
Fundamentos de Geometría Analítica y
111
Álgebra Lineal en el Espacio de Características
El aprendizaje de máquina opera fundamentalmente con
representaciones vectoriales de la realidad. Cada observación se interpreta
como un punto en un espacio de características de alta dimensionalidad,
donde los entes geométricos fundamentales punto, recta, plano y volumen
adquieren significados computacionales críticos. El punto, carente de
dimensión, representa la posición de una instancia individual; la recta, con
longitud pero sin ancho, define trayectorias de regresión o ejes de varianza; y
el plano, con longitud y ancho, sirve como el separador canónico en problemas
de clasificación (Liang et al., 2025).
La geometría plana y espacial permite extender estas nociones a
dimensiones arbitrarias mediante el concepto de hiperplano. En un sistema de
aprendizaje supervisado, un hiperplano se define mediante la ecuación
general:
donde es el vector normal al hiperplano y es el sesgo o bias. Esta
estructura geométrica es la base de las Máquinas de Vectores de Soporte
(SVM), que buscan identificar el hiperplano óptimo capaz de maximizar el
margen entre las distintas clases. El clasificador de margen máximo se define
como aquel hiperplano que maximiza la distancia a las observaciones más
cercanas de cada clase, denominadas vectores de soporte. Si el vector está
restringido a ser un vector unitario ( ), entonces el producto del
112
hiperplano y la variable de respuesta representa las distancias
perpendiculares al hiperplano, lo que asegura que .
Espacios Métricos y Geometría de la Distancia
La capacidad de un modelo para agrupar o clasificar datos depende de
la métrica de distancia que se elija. La geometría euclidiana clásica, basada en
el teorema de Pitágoras, define la distancia en línea recta entre dos puntos en
un espacio multidimensional. No obstante, la distancia euclidiana es altamente
sensible a la escala de los atributos y no considera la correlación intrínseca
entre las variables (Ferreiros y Paz, 2023). Para superar estas limitaciones, se
recurre a métricas más robustas, como la distancia de Mahalanobis, que
normaliza la distancia en función de la varianza y la covarianza de los datos.
Geométricamente, el cálculo de la distancia de Mahalanobis implica una
serie de transformaciones lineales: trasladar los datos al origen, rotarlos para
eliminar las correlaciones (mediante la diagonalización de la matriz de
covarianza) y estandarizar los datos para que todas las varianzas sean
unitarias. Este proceso transforma una distribución elipsoidal en una
distribución esférica, lo que permite una detección de valores atípicos mucho
más precisa en espacios multivariados en los que las variables están
fuertemente correlacionadas (véase la Tabla 16).
Tabla 16: Métrica de distancia y su aplicación en machine learning
Métrica de
distancia
Formulación
Matemática
Aplicación en
Machine Learning
Sensibilidad a
Escala/Outliers
113
Euclidiana ( )
Clustering K-
means, KNN
básico
Alta sensibilidad;
requiere
normalización
Manhattan ( )
$\sum
p_i - q_i
$
Mahalanobis
Detección de
anomalías,
clasificación
robusta
Invariante a
escala; considera
correlación
Coseno
$\frac{A \cdot B}{
A
Chebyshev ( )
$\max
p_i - q_i
$
Trigonometría en el Modelado de Fenómenos
Periódicos y Secuenciales
La trigonometría proporciona las funciones necesarias para modelar la
naturaleza cíclica de muchos conjuntos de datos reales. Las funciones seno y
coseno, con su periodicidad de radianes, son ideales para representar
variables como el tiempo, las estaciones o las fases de un motor (Imbaquingo
et al., 2024). En el aprendizaje de máquina, tratar estas variables de forma
lineal (por ejemplo, asignar a las 23:00 y a las 00:00 valores extremos)
introduce un sesgo geométrico, ya que el modelo percibe una distancia de 23
unidades cuando en realidad están separadas por una sola hora.
114
Codificación cíclica y transformaciones de Seno/Coseno
La solución técnica a este problema consiste en proyectar la variable
sobre el círculo unitario. Para cualquier característica cíclica con periodo , se
generan dos nuevas características:
Esta transformación asegura que la distancia entre el final y el inicio
del ciclo se conserve matemáticamente. Sin embargo, se debe tener
precaución al utilizar modelos basados en árboles de decisión (Random Forest,
XGBoost), ya que estos algoritmos realizan divisiones basadas en una sola
variable a la vez, lo que puede dificultar la interpretación conjunta del par
seno-coseno necesaria para entender la circularidad. Para redes neuronales y
modelos lineales, esta codificación es el estándar de oro, permitiendo que el
algoritmo aproxime funciones periódicas complejas con mayor facilidad.
Cálculo Trigonométrico y Análisis de Fourier
El cálculo de funciones trigonométricas proporciona la infraestructura
matemática para la optimización basada en gradientes y el reconocimiento de
patrones de frecuencia. Las derivadas de las funciones trigonométricas
presentan una estructura cíclica que facilita el flujo de gradientes mediante la
regla de la cadena en redes neuronales con activaciones sinusoidales.
El análisis de Fourier es una de las aplicaciones más profundas, ya que
115
permite descomponer señales en componentes de frecuencia mediante bases
de senos y cosenos. En el aprendizaje de máquina, la Transformada Discreta
de Fourier (DFT) y su implementación eficiente (FFT) permiten la extracción de
características en el dominio de la frecuencia, fundamental para el
procesamiento de audio y la visión artificial mediante espectrogramas, así
como para métodos de kernel escalables como los Random Fourier Features.
Geometría de la Optimización y Paisajes de
Pérdida
La optimización de un modelo de aprendizaje profundo puede
visualizarse como la navegación por una superficie de alta dimensionalidad,
denominada paisaje de pérdida (loss landscape). La topología de esta
superficie determina no solo la velocidad de entrenamiento (convergencia),
sino también la robustez del modelo resultante ante datos nuevos
(generalización)
Curvatura y la matriz hessiana
Para analizar la geometría local de la función de pérdida respecto de
los parámetros del modelo, se utiliza la matriz hessiana, que contiene las
segundas derivadas parciales. La definitividad de esta matriz en un punto
crítico permite clasificar la curvatura:
Definida positiva: El punto es un mínimo local (curvatura positiva).
Definida negativa: El punto es un máximo local.
Indefinida: El punto es un punto de silla (saddle point), donde la
superficie sube en algunas direcciones y desciende en otras.
116
En modelos complejos, la presencia de puntos de silla supone un
desafío mayor que el de los mínimos locales. La optimización de Riemann
aprovecha la estructura de variedad (manifold) del conjunto de restricciones
para adaptar algoritmos de optimización no restringida y escapar de estos
puntos mediante la información de curvatura. Esto es especialmente relevante
en el ajuste fino de modelos, donde el conocimiento del Hessiano ayuda a
adaptar las tasas de aprendizaje según la geometría local del espacio de
parámetros
Impacto de las Conexiones de Salto y la Normalización
La arquitectura de la red tiene un efecto dramático en la suavidad del
paisaje de pérdida. Las visualizaciones mediante direcciones aleatorias
normalizadas por filtro han revelado que las redes profundas sin conexiones
de salto (skip connections) presentan paisajes altamente caóticos e
inconvexos, lo que dificulta enormemente su entrenamiento. Por el contrario,
la introducción de conexiones residuales ( ) produce una transición
hacia comportamientos casi convexos, lo que facilita que los algoritmos de
descenso de gradiente encuentren mínimos de alta calidad (Wang et al., 2023).
Asimismo, el uso de capas de normalización (como Batch
Normalization) ayuda a eliminar los efectos de la escala en los pesos de la red.
Debido a la invariancia de escala de las funciones de activación como ReLU,
multiplicar los pesos de una capa por un factor y dividir los de la siguiente por
el mismo factor dejan la red inalterada, pero pueden cambiar drásticamente
la magnitud del gradiente. La normalización estabiliza esta geometría,
permitiendo que el optimizador ignore estas redundancias de escala y se
concentre en la dirección del descenso (Sayin et al., 2025).
117
Geometría Diferencial y Manifold Learning
La hipótesis del manifold sugiere que los datos de alta dimensionalidad
del mundo real (como imágenes o texto) residen en o cerca de variedades
suaves de baja dimensionalidad. El aprendizaje de variedades (Manifold
Learning) busca extraer estas geometrías intrínsecas para permitir un
modelado más preciso y una reducción de la dimensionalidad que no
comprometa las propiedades estructurales esenciales.
Distancia Geodésica vs. Euclidiana en Variedades No
Lineales
Una distinción fundamental en esta área es la diferencia entre la
distancia euclidiana y la distancia geodésica. Mientras que la distancia
euclidiana es el segmento de recta que conecta dos puntos en el espacio
ambiente, la distancia geodésica es la curva más corta que une ambos puntos
y que permanece sobre la superficie de la variedad. En estructuras no lineales
como el Swiss Roll, dos puntos pueden estar cerca en términos euclidianos
pero muy alejados en términos geodésicos.
El algoritmo Isomap (Isometric Mapping) intenta preservar estas
distancias geodésicas globales mediante la construcción de un grafo de
vecinos cercanos y el cálculo de los caminos más cortos en él. Por otro lado,
algoritmos como LLE (Locally Linear Embedding) se centran en preservar las
relaciones lineales locales, asumiendo que cualquier variedad es
aproximadamente plana en vecindarios lo suficientemente pequeños (Yao et
al., 2017) (véase la Tabla 17).
118
Tabla 17: Algoritmos de Reducción de Dimensionalidad Geométrica
Algoritmo
Concepto
Geométrico Clave
Fortalezas
Limitaciones
Isomap
Distancia
Geodésica Global
Captura
estructuras
globales no
lineales
Sensible al ruido y
a los cortocircuitos
en el grafo.
LLE
Linealidad Local
Preserva
vecindarios
locales; eficiente
Puede colapsar
proyecciones si los
pesos son
inestables
t-SNE
Divergencia KL de
vecindades
Excelente para
visualización de
clústeres
No preserva las
distancias
globales; es
estocástico.
UMAP
Topología y
Estructura Difusa
Preserva
estructura local y
global; rápido
Requiere un ajuste
cuidadoso de los
hiperparámetros.
MDS
Escalado
Multidimensional
Mantiene
distancias entre
puntos
Principalmente
lineal a menos que
se use con kernels.
Geometría de la Información y Divergencias
de Probabilidad
La geometría de la información trata el espacio de parámetros de un
119
modelo probabilístico como una variedad riemanniana. En este marco, las
distribuciones de probabilidad son puntos en una superficie, y la diferencia
entre ellas se mide no mediante distancias euclidianas, sino mediante
divergencias que respetan la estructura de la información.
Divergencia de Kullback-Leibler y Entropía Relativa
La divergencia KL es la métrica más común para comparar una
distribución real con una aproximación. Geométricamente, la divergencia KL
no es una distancia verdadera porque carece de simetría
( ). Representa la cantidad de información (o
sorpresa) adicional experimentada cuando se utiliza para modelar datos
que en realidad siguen la distribución . En el aprendizaje de máquina,
minimizar la divergencia KL entre la verdad fundamental y las predicciones del
modelo equivale a maximizar la log-verosimilitud, lo que guía el proceso de
aprendizaje hacia soluciones óptimas.
Métrica de Fisher y Gradiente Natural
Cerca del máximo de verosimilitud, la curvatura de la función de pérdida
está intrínsecamente relacionada con la información de Fisher. La Matriz de
Información de Fisher (FIM) actúa como una métrica riemanniana en el
espacio de parámetros, que indica cuán agudo o plano es el máximo de
verosimilitud. Una información de Fisher alta implica que el modelo es muy
sensible a pequeños cambios en los parámetros, mientras que una información
de Fisher baja indica un máximo romo (blunt), en el que muchos valores de
los parámetros producen resultados similares. El uso de esta métrica permite
120
implementar el gradiente natural, que actualiza parámetros invariantes a la
reparametrización del modelo, lo que mejora significativamente la estabilidad
en algoritmos de aprendizaje por refuerzo y en modelos generativos
complejos.
Geometría de grafos y redes neuronales de
grafos (GNN)
Los grafos pueden entenderse como variedades discretas cuya
geometría local afecta la propagación de la información. Mientras que las
redes neuronales tradicionales asumen una cuadrícula euclidiana (como los
píxeles de una imagen), las GNN deben manejar topologías irregulares donde
la noción de distancia y vecindad es puramente topológica
Curvatura de Ricci en grafos y el problema del cuello de
botella
Un concepto emergente y poderoso es la aplicación de la curvatura de
Ricci a los grafos. En geometría diferencial, la curvatura de Ricci determina el
volumen del solapamiento entre dos bolas pequeñas; si es positiva, las bolas
están más cerca entre que sus centros en términos de la distancia de
transporte (Loisel y Romon, 2014). En un grafo, la curvatura de Ricci de Ollivier
(ORC) mide el grado de solapamiento entre los vecindarios de dos nodos
conectados por una arista:
Curvatura Positiva: Indica comunidades densamente conectadas con
muchos caminos alternativos (triángulos).
Curvatura Negativa: Indica cuellos de botella o aristas tipo puente que
121
conectan clústeres diferentes, típicos en estructuras de árbol
El flujo de información en una GNN es análogo al flujo de calor en
diversos sistemas. La tasa de difusión es más rápida en las aristas con
curvatura positiva y más lenta en las con curvatura negativa. Modelos como
RCGCN (Ricci Curvature-based GCN) integran esta información para adaptar la
agregación de mensajes, mitigando problemas como el over-smoothing (donde
las representaciones de los nodos se vuelven indistinguibles) y optimizando el
aprendizaje en grafos con topologías complejas
Redes Neuronales Equivariantes a Grupos (G-CNN)
La geometría también determina cómo los modelos deben responder a
las simetrías. Las CNN tradicionales son intrínsecamente equivariantes a la
traslación, pero fallan ante rotaciones, reflexiones o escalados. Una función es
equivariante si transformar la entrada y luego aplicar la función produce el
mismo resultado que aplicar la función y luego transformar la salid (Awaluddin
et al., 2023)
Las G-CNN (Group equivariant CNNs) utilizan la teoría de grupos para
aprovechar simetrías adicionales y reducir la complejidad de las muestras.
Mediante el uso de G-convoluciones, la red comparte pesos no solo a través de
traslaciones, sino también a través de otros elementos de un grupo de simetría
(como rotaciones de 90 grados en el grupo ). Esto aumenta la capacidad
expresiva de la red sin incrementar el número de parámetros, lo que permite
que el modelo aprenda representaciones robustas frente a transformaciones
geométricas genéricas del mundo físico (véase la Tabla 18).
Tabla 18: Simetrías y propiedades en la red
122
Concepto de Simetría
Grupo Matemático
Propiedad en la red
neuronal
Traslación
Equivarianza estándar de
CNNs.
Rotación Discreta
(90º)
Levantamiento de
convolución (lifting
convolution).
Rotación Continua
Redes neuronales
Steerable.
Simetría Esférica
CNNs esféricas para
imágenes de 360°.
Permutación
Invariancia en Graph
Neural Networks (GNNs).
Operadores Neuronales de Fourier y
Continuidad Funcional
Una de las fronteras más recientes en la intersección entre la
trigonometría y el aprendizaje profundo son los operadores neuronales de
Fourier (FNO). A diferencia de las redes neuronales estándar que aprenden
mapeos entre vectores de dimensión fija, los FNO aprenden mapeos entre
espacios de funciones de dimensión infinita.
La arquitectura de un FNO se basa en la convolución espectral. Para
una entrada dada, la capa realiza una transformada de Fourier, aplica una
transformación lineal a los modos de baja frecuencia en el dominio de Fourier
123
y luego vuelve a realizar la transformada de Fourier inversa. Este enfoque tiene
tres ventajas geométricas fundamentales:
1. Invariancia a la Discretización: El modelo puede entrenarse con datos a
una resolución y evaluarse en una mucho mayor (zero-shot super-
resolution) porque aprende la estructura continua de la función, no solo
los valores en los puntos de la cuadrícula.
2. Captura de Correlaciones Globales: Dado que un cambio en el dominio
de la frecuencia afecta a toda la señal en el dominio espacial, los FNO
capturan dependencias de largo alcance de forma mucho más eficiente
que las convoluciones locales.
3. Eficiencia en EDP: Son órdenes de magnitud más rápidos que los
solucionadores numéricos tradicionales para ecuaciones diferenciales
parciales (EDP) complejas, como las de Navier-Stokes en regímenes
turbulentos, y mantienen una precisión comparable.
Recientemente, el desarrollo del Operador Neuronal de Vandermonde
(VNO) ha extendido estas capacidades a distribuciones de puntos no
equiespaciados, mediante matrices de Vandermonde estructuradas para
computar transformadas de Fourier en dominios arbitrarios, lo que abre la
puerta al aprendizaje de operadores en geometrías irregulares y en manifolds
complejos.
La integración de la geometría y la trigonometría en el aprendizaje de
máquina ha dejado de ser un mero complemento estético y se ha convertido
en una necesidad funcional para la próxima generación de sistemas de
inteligencia artificial. La transición del procesamiento de datos puramente
euclidianos al aprovechamiento de variedades riemannianas, simetrías de
124
grupo y curvaturas de grafos permite abordar problemas que antes se
consideraban intratables debido a su alta dimensionalidad o complejidad
estructural.
El futuro del campo parece dirigirse hacia la Geometría Profunda, donde
las arquitecturas de red no solo se inspiran en la geometría, sino que están
estrictamente restringidas por ella para garantizar la consistencia física y la
generalización matemática. La capacidad de los modelos para operar sobre
complejos simpliciales que capturan no solo relaciones entre pares de
nodos, sino también relaciones de orden superior entre celdas, volúmenes y
ángulos diedros promete una nueva era en la interpretabilidad de los
modelos. Al entender el aprendizaje de máquina como un proceso de
transformación y partición geométricas del espacio, los investigadores pueden
diseñar sistemas que no solo ajustan curvas a los datos, sino que también
capturan la esencia topológica de la realidad que intentan modelar.
125
Conclusión
Un análisis detallado de los fundamentos y la formulación del problema
muestra que la inteligencia artificial va más allá de ser solo una rama de la
informática; es una convergencia interdisciplinaria que requiere un
conocimiento profundo de las matemáticas. Considerar el Machine Learning
como una caja negra no solo limita la innovación individual, sino que también
genera vulnerabilidades en el sistema, como sesgos, ineficiencias y una mayor
dependencia tecnológica.
Este libro de investigación surge como una respuesta fundamental a la
crisis del entendimiento teórico. Al combinar álgebra lineal, cálculo,
probabilidad y optimización en un enfoque narrativo orientado a resolver
problemas reales, se pretende reducir la brecha de habilidades que
actualmente separa a los ingenieros prácticos de los investigadores más
avanzados. Para regiones como América Latina, esta formación no es un lujo
académico, sino una necesidad crucial para superar las trampas del desarrollo
y participar de manera equitativa en la soberanía digital mundial.
Uno de los mayores obstáculos para la soberanía digital en la región es
la acelerada fuga de especialistas. La brecha de talento respecto al promedio
mundial se ha ensanchado desde 2022, ya que los profesionales más
capacitados suelen ser reclutados por empresas tecnológicas en Estados
Unidos o en Europa. Aquellos que permanecen en la región a menudo se
enfrentan a una formación alfabetizada pero poco especializada; es decir, a
personas que saben usar la IA pero no saben cómo construirla ni adaptarla a
los problemas locales, como la agricultura de precisión en climas tropicales o
126
la gestión de recursos hídricos en los Andes.
Además, persiste una brecha digital entre las áreas urbanas y rurales.
Sin electricidad confiable, acceso a la banda ancha y dispositivos adecuados,
millones de personas quedan relegadas en la revolución de la IA. Esta
desigualdad no solo es injusta, sino que también limita la región, privándola
de una variedad de datos única: los datos de ciudades y zonas rurales
latinoamericanas son fundamentales para entrenar modelos que comprendan
y afronten las trampas del desarrollo señaladas por la CEPAL, como la baja
movilidad social y la debilidad institucional.
Frente a estas barreras, el software de digo abierto (Open Source)
surge como una oportunidad estratégica para América Latina. Alrededor del
38% de las organizaciones latinoamericanas ya utilizan IA de código abierto,
lo que permite a los desarrolladores adquirir habilidades de vanguardia de
manera asequible y auditable. Por ende, la colaboración público-privada es
esencial para convertir este entusiasmo cultural en una industria de
innovación sostenible y centrada en las personas.
127
Bibliografía
Akter, S., & Haider, MR (2025). mTanh: Una función de activación tolerante a
gradientes evanescentes impresa con inyección de tinta de bajo costo. Journal
of Low Power Electronics and Applications , 15 (2), 27.
https://doi.org/10.3390/jlpea15020027
Awaluddin, B.A., Chao, C.T., & Chiou, J.S. (2023). Investigación de la
transformación geométrica efectiva para el aumento de imágenes con el fin de
mejorar los gestos manuales estáticos mediante una red neuronal
convolucional preentrenada. Mathematics , 11 (23), 4783.
https://doi.org/10.3390/math11234783
Barry, A., Li, W., Becerra, J. A., & Gilabert, P. L. (2021). Comparison of Feature
Selection Techniques for Power Amplifier Behavioral Modeling and Digital
Predistortion Linearization. Sensors (Basel, Switzerland), 21(17), 5772.
https://doi.org/10.3390/s21175772
Blanco, E., y Cervera, M. (2002). Mecánica de Estructuras. Barcelona: Edicions
UPC
Blume, S., Benedens, T., & Schramm, D. (2021). Técnicas de optimización de
hiperparámetros para el diseño de sensores de software basados en redes
neuronales artificiales. Sensors , 21 (24), 8435.
https://doi.org/10.3390/s21248435
Brito Dumancela, C. A., Cargua Suarez, S. R., Vera Vera, M. V., & Gualsaquí
Valencia, E. A. (2025). Álgebra lineal avanzada y su rol en el aprendizaje de
algoritmos de machine learning. Reincisol., 4(7), 34403466.
https://doi.org/10.59282/reincisol.V4(7)3440-3466
Cavani, M. (2025). Sobre un Recorrido de Estudio e Investigación del Álgebra
128
Lineal Necesaria para Reducir la Dimensionalidad con Machine
Learning. Revista de Investigación y Evaluación Educativa, 12(1), 27-
47. https://doi.org/10.47554/revie.vol12.num1.2025.pp27-47
De la Cruz Serrano, F. (2025). Más allá de la fila por columna: intervención con
GeoGebra y ETM en el aprendizaje del producto matricial en
secundaria. Quintaesencia, 17(1), 4753.
https://doi.org/10.54943/rq.v17i1.794
Ferreirós, J., y Paz, M. (2023). La génesis de la geometría. Madrid: Plaza y
Valdés Editores. https://www.scielo.org.mx/pdf/rhfi/v57n169/0011-1503-rhfi-
57-169-165.pdf
Gallego, E., Gómez-Ramírez, D.A.J., & Porras, J. (2025). Análisis topológico de
datos y su aplicación en mercados financieros. Revista Integración, 43(2), 15-
26. https://doi.org/10.18273/revint.v43n2-2025002
Gao, L., Luo, Z., & Wang, L. (2025). Técnicas de aceleración de redes neuronales
convolucionales basadas en plataformas FPGA: principios, métodos y
desafíos. Information , 16 (10), 914. https://doi.org/10.3390/info16100914
García, Andrea, Restrepo, Ángela, & Velásquez, Juan D.. (2013). Búsqueda
aleatoria repetitiva basada en caos. Revista Ingenierías Universidad de
Medellín, 12(22), 137-146.
http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S1692-
33242013000100013&lng=en&tlng=es.
González, J.E. (2025). Pensamiento crítico y futuro sostenible: Una mirada
desde Latinoamérica y el Caribe. Cartagena de Indias: Universu Editores.
http://repositorio.unisinucartagena.edu.co:8080/jspui/bitstream/123456789
/1829/1/Libro.Pensamiento_cr%C3%ADtico_y_futuro_sostenible._11agosto%5
B1%5D.pdf
129
Guzmán Roldán, C. M., Estrada Huancas, M. M., Burga Barboza, R. E., & Villegas
Santamaría, L. M. (2025). El Impacto de la Inteligencia Artificial en el Álgebra
Lineal. Una revisión bibliométrica. Revista Reflexiones De La Sociedad Y
Economía, 2(2), 0124. https://doi.org/10.62776/rse.v2i2.48
Hou, C. K. J., & Behdinan, K. (2022). Dimensionality Reduction in Surrogate
Modeling: A Review of Combined Methods. Data science and engineering, 7(4),
402427. https://doi.org/10.1007/s41019-022-00193-5
Huang, J., Xu, Y., Wang, Q., Wang, QC, Liang, X., Wang, F., Zhang, Z., Wei, W.,
Zhang, B., Huang, L., Chang, J., Ma, L., Ma, T., Liang, Y., Zhang, J., Guo, J., Jiang,
X., Fan, X., An, Z., Li, T., Fei, A. (2025). Modelos fundamentales y toma de
decisiones inteligente: progreso, desafíos y perspectivas. Innovation
(Cambridge (Mass.)), 6 (6), 100948.
https://doi.org/10.1016/j.xinn.2025.100948
Imbaquingo Guerrero, J. A., Bastidas González , K. A., Gutiérrez Bastidas , J.
O., & Alvarado Rosado , S. M. (2024). Aplicación de trigonometría en la
resolución de problemas de la vida cotidiana para estudiantes de
bachillerato. Reincisol., 3(5), 15931607.
https://doi.org/10.59282/reincisol.V3(5)1593-1607
Kim, J., & Lim, J. (2021). A Deep Neural Network-Based Method for Prediction
of Dementia Using Big Data. International journal of environmental research
and public health, 18(10), 5386. https://doi.org/10.3390/ijerph18105386
Kim, J.E. (2025). Un enfoque de números hiperduales para el cálculo de
derivadas de orden superior. Axioms , 14 (8), 641.
https://doi.org/10.3390/axioms14080641
Kitao, A. (2022). Análisis de componentes principales y métodos relacionados
para investigar la dinámica de macromoléculas biológicas. J , 5 (2), 298-317.
130
https://doi.org/10.3390/j5020021
Lee, M. (2023). The Geometry of Feature Space in Deep Learning Models: A
Holistic Perspective and Comprehensive Review. Mathematics, 11(10), 2375.
https://doi.org/10.3390/math11102375
Liang, B., Wang, Y., & Tong, C. (2025). Razonamiento de IA en la era del
aprendizaje profundo: De la IA simbólica a la IA
neurosimbólica. Mathematics , 13 (11), 1707.
https://doi.org/10.3390/math13111707
Loisel, B., & Romon, P. (2014). Ricci Curvature on Polyhedral Surfaces via
Optimal Transportation. Axioms, 3(1), 119-139.
https://doi.org/10.3390/axioms3010119
Machine mediante Algoritmos Evolutivos [Trabajo fin de Master]. Universidad
Nacional de Educación a Distancia (UNED)
Mishra, A., Jatt, V., Sefene, E. M., Salunkhe, S., Cep, R., & Abouel Nasr, E. (2025).
Supervised Machine Learning and Physics Machine Learning approach for
prediction of peak temperature distribution in Additive Friction Stir Deposition
of Aluminium Alloy. PloS one, 20(4), e0309751.
https://doi.org/10.1371/journal.pone.0309751
Moyano-Arias, R. J., Salazar-Alvarez, E. G., & Toalombo-Vargas, V. M. (2024). El
rol del Álgebra lineal en el desarrollo de algoritmos de machine
learning. MQRInvestigar, 8(4), 36933718.
https://doi.org/10.56048/MQR20225.8.4.2024.3693-3718
Murad, A., Kraemer, FA, Bach, K., & Taylor, G. (2021). Aprendizaje profundo
probabilístico para cuantificar la incertidumbre en la predicción de la calidad
del aire. Sensors , 21 (23), 8009. https://doi.org/10.3390/s21238009
Oviedo Rodríguez, K., & Jiménez Oviedo., B. (2022). Basic examples of linear
131
algebra with python: Ejemplos básicos de álgebra lineal con python. Revista
Digital: Matemática, Educación E Internet, 21(1).
https://doi.org/10.18845/rdmei.v21i1.5340
Pinto, J.M. (2023). Optimización de parámetros en Extreme Learning
Raschka, S., Patterson, J., & Nolet, C. (2020). Aprendizaje automático en
Python: principales desarrollos y tendencias tecnológicas en ciencia de datos,
aprendizaje automático e inteligencia artificial. Information , 11 (4), 193.
https://doi.org/10.3390/info11040193
Ríos-Vásquez, G., & de la Fuente-Mella, H. (2023). Análisis matemático y
modelización de los factores que determinan la calidad de vida en los
municipios de Chile. Matemáticas , 11 (5), 1218.
https://doi.org/10.3390/math11051218
Safari, M., Alves de Sousa, R., & Joudaki, J. (2020). Fabricación de superficies
en forma de silla de montar mediante un proceso de conformado láser: una
investigación experimental y estadística. Metals , 10 (7), 883.
https://doi.org/10.3390/met10070883
Sandubete, JE, Beleña, L., & García-Villalobos, JC (2023). Prueba de la
hipótesis del mercado eficiente y la paradoja del modelo-datos del caos en las
principales divisas del mercado de divisas (FOREX). Mathematics , 11 (2), 286.
https://doi.org/10.3390/math11020286
Sariev, E., & Germano, G. (2020). Redes neuronales artificiales bayesianas
regularizadas para la estimación de la probabilidad de
incumplimiento. Quantitative Finance , 20 (2), 311328.
https://doi.org/10.1080/14697688.2019.1633014
Sayın, KA, Gürsoy, NK, Yolcu, T., & Gürsoy, A. (2025). Sobre la sinergia de los
optimizadores y las funciones de activación: un estudio comparativo de
132
CNN. Mathematics , 13 (13), 2088. https://doi.org/10.3390/math13132088
Stanimirović, P. S., Ćirić, M., Mourtas, S. D., Milovanović, G. V., & Petrović, M. J.
(2024). Simultaneous Method for Solving Certain Systems of Matrix Equations
with Two Unknowns. Axioms, 13(12), 838.
https://doi.org/10.3390/axioms13120838
Sun, G., Li, Z., Jiao, Y., & Wang, Q. (2025). Aplicación de la estadística bayesiana
en el análisis y la predicción de los cambios dimensionales inducidos por la
carburación en barras de torsión. Metals , 15 (5), 546.
https://doi.org/10.3390/met15050546
Tian, Y., Zhang, Y., & Zhang, H. (2023). Avances recientes en el descenso de
gradiente estocástico en el aprendizaje profundo. Mathematics , 11 (3), 682.
https://doi.org/10.3390/math11030682
Vinegoni, C., Fumene Feruglio, P., Courties, G. et al. (2020). Representaciones
de imágenes tensoriales de microscopía de fluorescencia para el análisis de
conjuntos de datos a gran escala. Sci Rep.,10, 5632.
https://doi.org/10.1038/s41598-020-62233-2
Wang, H., Yao, L., Wang, H., Liu, Y., Li, Z., Wang, D., Hu, R., & Tao, L. (2023).
Supervised Manifold Learning Based on Multi-Feature Information
Discriminative Fusion within an Adaptive Nearest Neighbor Strategy Applied
to Rolling Bearing Fault Diagnosis. Sensors, 23(24), 9820.
https://doi.org/10.3390/s23249820
Yao, B., Su, J., Wu, L., & Guan, Y. (2017). Modified Local Linear Embedding
Algorithm for Rolling Element Bearing Fault Diagnosis. Applied
Sciences, 7(11), 1178. https://doi.org/10.3390/app7111178
Yolles, M. (2022). Conciencia, sapiencia y sensibilidad: una perspectiva
metacibernética. Systems , 10 (6), 254.
133
https://doi.org/10.3390/systems10060254
Zaznov, I., Badii, A., Kunkel, J. et al. (2025). AdamZ: un método de optimización
mejorado para el entrenamiento de redes neuronales. Neural Comput &
Applic. 37, 2688726914. https://doi.org/10.1007/s00521-025-11649-w
Zhu, Y., Wang, M., Yin, X., Zhang, J., Meijering, E., & Hu, J. (2022). Deep Learning
in Diverse Intelligent Sensor Based Systems. Sensors (Basel,
Switzerland), 23(1), 62. https://doi.org/10.3390/s23010062
134
De esta edición de Matemáticas para el aprendizaje de máquina, se terminó
de editar en la ciudad de Colonia del Sacramento en la República Oriental del
Uruguay el 28 de febrero de 2026
135