1
Análisis de componentes principales y factorial exploratorio aplicado a la
investigación experimental
Ricardo Martín Gómez Arce, Víctor Humberto Maos Núñez, María del Pilar Ríos
García, Mariel del Rocío Chotón Calvo, Luis Alberto De la Cruz Estrada, Juan Santiago
Blas Pérez
© Ricardo Martín Gómez Arce, Víctor Humberto Maos Núñez, María del Pilar Ríos
García, Mariel del Rocío Chotón Calvo, Luis Alberto De la Cruz Estrada, Juan Santiago
Blas Pérez, 2025
Primera edición: Junio, 2025
Editado por:
Editorial Mar Caribe
www.editorialmarcaribe.es
Av. General Flores 547, Colonia, Colonia-Uruguay.
Diseño de portada: Yelia Sánchez Cáceres
Libro electrónico disponible en:
hps://editorialmarcaribe.es/ark:/10951/isbn.9789915698137
Formato: electrónico
ISBN: 978-9915-698-13-7
ARK: ark:/10951/isbn.9789915698137
URN: URN:ISBN:978-9915-698-13-7
Atribución/Reconocimiento-
NoComercial 4.0 Internacional:
Editorial Mar Caribe, firmante
795 de 12.08.2024 de la
Declaración de Berlín:
Editorial Mar Caribe-Miembro
de OASPA:
Los autores pueden autorizar al
público en general a reutilizar
sus obras únicamente con fines
no lucrativos, los lectores
pueden utilizar una obra para
generar otra, siempre que se
crédito a la investigación, y
conceden al editor el derecho a
publicar primero su ensayo bajo
los términos de la licencia CC
BY-NC 4.0.
"... Nos sentimos obligados a
abordar los retos de Internet como
medio funcional emergente para la
distribución del conocimiento.
Obviamente, estos avances pueden
modificar significativamente la
naturaleza de la publicación
científica, así como el actual sistema
de garantía de calidad...." (Max
Planck Society, ed. 2003., pp.
152-153).
Como miembro de la Open
Access Scholarly Publishing
Association, apoyamos el acceso
abierto de acuerdo con el código
de conducta, transparencia y
mejores prácticas de OASPA
para la publicación de libros
académicos y de investigación.
Estamos comprometidos con los
más altos estándares editoriales
en ética y deontología, bajo la
premisa de «Ciencia Abierta en
América Latina y el Caribe».
2
Editorial Mar Caribe
Análisis de componentes principales y factorial
exploratorio aplicado a la investigación
experimental
Colonia, Uruguay
2025
3
Sobre los autores y la publicación
Ricardo Martín Gómez Arce
hps://orcid.org/0000-0003-2763-4399
Universidad Nacional de Trujillo, Perú
Víctor Humberto Maos Núñez
victor.ma[email protected]u.pe
hps://orcid.org/0009-0004-6048-2870
Universidad Nacional Toribio Rodríguez de
Mendoza, Perú
María del Pilar Ríos García
hps://orcid.org/0000-0002-0236-6810
Universidad Nacional de Tumbes, Perú
Mariel del Rocío Chotón Calvo
mariel.choton@untrm.edu.pe
hps://orcid.org/0000-0001-6870-9268
Universidad Nacional Toribio Rodríguez de
Mendoza, Perú
Luis Alberto De la Cruz Estrada
hps://orcid.org/0009-0007-3745-6799
Universidad Nacional del Santa, Perú
Juan Santiago Blas Pérez
hps://orcid.org/0000-0002-9741-3164
Universidad Nacional de Tumbes, Perú
Libro resultado de investigación:
Publicación original e inédita, cuyo contenido es el resultado de un proceso de investigación
llevado a cabo con anterioridad a su publicación, ha sido sometida a una revisión externa por
pares a doble ciego, el libro ha sido seleccionado por su calidad cientíca y porque contribuye
signicativamente al área de conocimiento e ilustra una investigación completamente
desarrollada y nalizada. Además, la publicación ha pasado por un proceso editorial que
garantiza su normalización bibliográca y usabilidad.
Sugerencia de citación:
Gómez, R.M., Maos, V.H., Ríos, M., Chotón, M., De la Cruz, L.A., y Blas, J.S. (2025). Análisis de
componentes principales y factorial exploratorio aplicado a la investigación experimental. Colonia del
Sacramento: Editorial Mar Caribe. hps://editorialmarcaribe.es/ark:/10951/isbn.9789915698137
4
Índice
Introducción ................................................................................................... 6
Capítulo I ....................................................................................................... 9
Análisis de Componentes Principales y Factorial Exploratorio en la
Investigación Experimental ............................................................................ 9
1.1 Características del análisis factorial exploratorio y su aplicación en la
investigación experimental ....................................................................... 11
1.2 Fiabilidad y Estadística en la Investigación Experimental: Fundamentos,
Métodos y Relevancia en los Resultados ................................................... 16
1.3 Características relacionadas al análisis de componentes principales:
Análisis de coordenadas principales y de correspondencias ..................... 22
Capítulo II .................................................................................................... 28
Análisis de Componentes Principales: Fundamentos, Aplicaciones y
Consideraciones en la Investigación Experimental ....................................... 28
2.1 Matemáticas, biología y ciencias sociales detrás del PCA .................... 29
2.2 Integrando la Teoría de Bayes en el Análisis de Componentes
Principales: Fundamentos, Aplicaciones y Perspectivas Futuras ............... 34
2.3 Análisis de Componentes Principales en el Aprendizaje Automático .. 40
Capítulo III .................................................................................................. 47
Explorando el Análisis Factorial: Una Guía Integral para la Investigación
Experimental ................................................................................................ 47
3.1 Metodología del análisis factorial exploratorio .................................... 48
3.2 Características relacionadas con el análisis factorial: Análisis de
correspondencias múltiples ...................................................................... 52
3.3 Características relacionadas con el análisis factorial: Agrupamiento
univariante y de K-medias ........................................................................ 59
Capítulo IV .................................................................................................. 66
Análisis Factorial Conrmatorio: Fundamentos, Aplicaciones y Paradigmas
en la Investigación Experimental.................................................................. 66
4.1 Teoría detrás del análisis factorial conrmatorio ................................. 66
5
4.2 Características relacionadas con el análisis factorial: Modelos de mezcla
gaussiana .................................................................................................. 70
4.3 Características relacionadas con el análisis factorial: Agrupamiento
jerárquico aglomerativo y escalamiento multidimensional ....................... 78
Conclusión ................................................................................................... 84
Bibliografía .................................................................................................. 87
6
Introducción
La investigación experimental es el método cientíco básico que
proporciona a los investigadores a establecer relaciones causales entre variables
a través de sus operaciones controladas. A diferencia de otros métodos de
investigación, como las pruebas de observación, los estudios empíricos se
caracterizan por la capacidad de controlar las condiciones en las que se realiza el
experimento, asegurando el nivel estricto y más preciso para obtener los
resultados. La investigación experimental se dene como un proceso sistemático
que incluye la operación de una o más variables independientes para observar el
impacto en una o más variables dependientes.
Este proyecto proporciona herramientas estadísticas asociadas al machine
learning (Análisis de Componentes Principales (ACP/PCA) y Análisis Factorial
(AF)) para establecer hipótesis y presentarlas en pruebas en condiciones
controladas. Las características principales de la investigación de la prueba
incluyen objetivos aleatorios de grupos, variables externas de control y la
repetición de experimentos.
En este sentido, el análisis de componentes principales (ACP/PCA) y el
análisis factorial exploratorio (AFE) son herramientas esenciales en la
investigación experimental, ya que conceden a los investigadores simplicar y
estructurar grandes volúmenes de datos y, la capacidad de reducir la
dimensionalidad y extraer patrones subyacentes que no solo facilita la
interpretación de los resultados (datos), sino que encima optimiza el diseño de
experimentos.
En teoría, es útil visualizar los datos en el espacio de los primeros dos o
tres componentes principales mediante grácos de dispersión; esto no solo ayuda
7
a identicar patrones o grupos en los datos, sino que también concede entender
cómo las variables originales contribuyen a cada componente. En concreto, un
componente obtiene estar fuertemente inuenciado por algunas variables,
mientras que otras consiguen tener un impacto menor.
Conforme a este planteamiento, el objetivo de este libro es proporcionar
una visión integral del análisis de componentes principales y el análisis factorial,
explorando sus fundamentos teóricos, aplicaciones prácticas y consideraciones
clave para su implementación en la investigación experimental. A través de un
análisis detallado, se busca equipar a los investigadores con un entendimiento
claro de cómo aplicar cada método de manera efectiva en sus estudios, así como
destacar las implicaciones y limitaciones de esta técnica.
Como sustento histórico, antes de aplicar PCA, es crucial normalizar los
datos, especialmente si las características están en escalas diferentes; la
normalización se realiza típicamente restando la media y dividiendo por la
desviación estándar, convirtiendo así los datos en una distribución con media
cero y varianza uno. Esta práctica evita que las características con escalas
mayores dominen el análisis, permitiendo que PCA capture la estructura
subyacente de los datos de manera más efectiva.
En este sentido, la importancia del PCA radica en su capacidad para
simplicar la complejidad de los datos sin sacricar la información clave, pues,
en investigaciones experimentales, donde los investigadores a menudo se
enfrentan a múltiples variables que consiguen estar interrelacionadas, el PCA
proporciona una manera eciente de visualizar y analizar estas relaciones.
Para trascender en la investigación experimental, los autores recomiendan
a los lectores tomar estas técnicas desde el punto de vista crítico y reexivo
durante todo el proceso investigativo, considerando no solo los resultados
8
obtenidos, sino igualmente el contexto en el que se producen, como una
herramienta esencial que busca validar hipótesis y teorías especícas, e
inuenciar la capacidad para proporcionar un marco estructural claro y
cuanticable que lo convierta en un recurso valioso en el análisis de datos
complejos.
9
Capítulo I
Análisis de Componentes Principales y Factorial
Exploratorio en la Investigación Experimental
El análisis de datos es una etapa crucial en la investigación experimental,
ya que concede a los investigadores extraer conclusiones signicativas y
fundamentadas a partir de los datos recolectados. En un contexto donde las
decisiones deben basarse en evidencias empíricas, la correcta interpretación y
manejo de los datos se convierte en un pilar fundamental para la validez de
cualquier estudio. La investigación experimental, por su naturaleza, se enfoca en
la manipulación de variables para observar los efectos en otras variables. Esto
requiere no solo un diseño riguroso, sino de igual modo técnicas de análisis que
puedan desentrañar la complejidad de los datos obtenidos. En este sentido, el
análisis de componentes principales (ACP) y el análisis factorial exploratorio
(AFE) se presentan como herramientas poderosas para abordar los escenarios
inherentes a la interpretación de datos multivariantes.
El ACP concede reducir la dimensionalidad de los datos, identicando
patrones y simplicando la compleja estructura de variables interrelacionadas.
Esto es especialmente útil en situaciones donde se manejan múltiples variables,
ya que facilita la visualización y comprensión de los datos (Arroyo, 2016). Por su
parte, el AFE proporciona un marco para explorar la estructura latente de los
datos, ayudando a los investigadores a identicar grupos de variables que se
comportan de manera similar (Lloret et al., 2014).
El ACP es una técnica multivariada que transforma un conjunto de
variables observadas, que consiguen estar correlacionadas entre sí, en un nuevo
10
conjunto de variables lineales no correlacionadas, conocidas como componentes
principales. Cada componente principal es una combinación lineal de las
variables originales y está diseñado para captar la mayor parte de la variación
presente en los datos. Los principales objetivos del ACP son:
* Reducción de dimensionalidad: Facilitar el análisis de datos complejos al reducir el
número de variables, lo que obtiene ayudar en la visualización y la interpretación
de los datos.
* Identicación de patrones: Revelar estructuras subyacentes en los datos que
podrían no ser evidentes a partir de las variables originales.
* Eliminación de ruido: Ayudar a identicar y eliminar variables que no aportan
información relevante al análisis, lo que obtiene mejorar la ecacia de los modelos
estadísticos subsecuentes.
El proceso de cálculo del ACP implica varios pasos:
* Estándarización de los datos: Dado que el ACP es sensible a la escala de las
variables, es fundamental estandarizar los datos para que todas las variables
contribuyan de manera equitativa al análisis.
* Cálculo de la matriz de covarianza: Se calcula la matriz de covarianza para evaluar
la relación entre las variables.
* Eigenvectores y eigenvalores: A partir de la matriz de covarianza, se obtienen los
eigenvectores (que representan las direcciones de los componentes principales)
y los eigenvalores (que indican la cantidad de variabilidad que cada componente
explica).
* Selección de componentes: Se seleccionan los componentes principales en función
de su eigenvalor. Generalmente, se eligen aquellos que explican un porcentaje
signicativo de la varianza total, utilizando criterios como la regla de Kaiser, que
11
sugiere conservar componentes con eigenvalores mayores a 1, o el análisis de la
gráca de sedimentación (scree plot).
Una vez que se han extraído los componentes principales, es crucial
interpretar los resultados de manera adecuada, cada componente principal
obtiene ser analizado en términos de la carga que tiene sobre cada variable
original, lo que proporciona información sobre qué variables están más
inuyendo en la variabilidad de los datos (Jollie y Cadima, 2016). En el contexto
de la investigación experimental, el ACP obtiene ser aplicado para:
- Explorar relaciones entre variables: Concede identicar patrones y relaciones
no evidentes que consiguen ser relevantes para la hipótesis de investigación.
- Mejorar la calidad de los datos: Al reducir la dimensionalidad, se consiguen
mitigar problemas de multicolinealidad, lo que mejora la robustez de los modelos
estadísticos.
- Facilitar la visualización: Los componentes principales consiguen ser
gracados para facilitar la comunicación de los hallazgos a través de
representaciones grácas como biplots.
El análisis de componentes principales es una herramienta poderosa en la
investigación experimental que concede simplicar y claricar la complejidad de
los datos, facilitando así la toma de decisiones informadas y la formulación de
conclusiones basadas en evidencia.
1.1 Características del análisis factorial exploratorio y su aplicación
en la investigación experimental
El análisis factorial exploratorio (AFE) es una técnica estadística que
concede identicar la estructura subyacente de un conjunto de variables
observadas. A través de esta metodología, los investigadores consiguen reducir
12
la dimensionalidad de sus datos y descubrir patrones ocultos, lo cual es
especialmente útil en contextos donde se busca entender la relación entre
múltiples variables. Es crucial distinguir entre el análisis factorial exploratorio y
el análisis factorial conrmatorio (AFC), el AFE se utiliza cuando los
investigadores no tienen una hipótesis especíca sobre la estructura de los
factores y buscan explorar los datos para identicar patrones.
En contraste, el AFC se aplica cuando hay teorías preexistentes que
sugieren cómo se relacionan las variables entre y se busca conrmar esas
relaciones a través de un modelo estadístico. Esta diferencia en los puntos de
vista implica que el AFE es más exible y exploratorio, mientras que el AFC es
más riguroso y basado en hipótesis. Entre los panoramas en el AFE es decidir
cuántos factores deben ser extraídos del conjunto de datos. Existen varios
métodos que consiguen ayudar en esta determinación:
* Criterio de Kaiser: Este método sugiere retener aquellos factores que tengan un
valor propio (eigenvalue) mayor que 1. Este criterio se basa en la idea de que un
factor debe explicar al menos la varianza de una única variable.
* Gráca de sedimentación (scree plot): A través de esta representación gráca, se
visualizan los valores propios de los factores en orden decreciente. El punto en el
que la gráca comienza a aplanarse indica el número adecuado de factores a
retener.
* Análisis paralelo: Este método implica comparar los valores propios obtenidos
del análisis con los valores propios generados aleatoriamente. Se retienen
aquellos factores que tienen valores propios mayores que los de las variables
aleatorias.
La elección del método depende del contexto de la investigación y de la
naturaleza de los datos, y a menudo es recomendable utilizar una combinación
13
de estos enfoques para llegar a una decisión más informada. Una vez que se han
extraído los factores, es fundamental evaluar su validez y abilidad. La validez
se reere a la capacidad de los factores para representar adecuadamente las
variables observadas. Esto obtiene evaluarse mediante la correlación entre los
factores y las variables originales, así como a través de análisis adicionales como
la rotación de factores, que ayuda a claricar las relaciones entre ellos.
La abilidad, por otro lado, se reere a la consistencia interna de los
factores. La medida más comúnmente utilizada para evaluar la abilidad es el
coeciente alfa de Cronbach, que indica cómo se relacionan entre sí las variables
dentro de un mismo factor. Un valor de alfa superior a 0.70 generalmente se
considera aceptable, si y solo si en contextos de investigación más rigurosos, se
consiguen buscar valores superiores a 0.80 (Doval et al., 2023).
El análisis factorial exploratorio es una herramienta poderosa en la
investigación experimental, permitiendo a los investigadores identicar y validar
estructuras subyacentes en sus datos. Sin embargo, su correcta implementación
requiere un entendimiento claro de sus métodos y consideraciones, así como un
camino crítico hacia la interpretación de los resultados obtenidos.
El análisis de componentes principales (ACP) y el análisis factorial
exploratorio (AFE) son herramientas esenciales en la investigación experimental,
ya que conceden a los investigadores simplicar y estructurar grandes
volúmenes de datos. La capacidad de reducir la dimensionalidad y extraer
patrones subyacentes no solo facilita la interpretación de los resultados, sino que
encima optimiza el diseño de experimentos.
En el diseño de experimentos, el ACP y el AFE consiguen ser utilizados
para identicar variables clave que inuyen en el resultado de una investigación.
A saber, en estudios psicológicos que exploran el impacto de diversas variables
14
sobre el comportamiento humano, estas técnicas ayudan a determinar qué
factores son los más signicativos y cómo se relacionan entre sí. Al reducir el
número de variables a un conjunto más manejable, los investigadores consiguen
concentrarse en aquellos aspectos que realmente afectan el fenómeno estudiado,
lo que conduce a un diseño más ecaz y a resultados más claros.
Por añadidura, al aplicar el ACP antes de realizar un experimento, los
investigadores consiguen seleccionar variables independientes que sean
representativas de los componentes extraídos. Esto no solo ahorra recursos, sino
que igualmente mejora la precisión de los resultados, ya que se minimizan las
colinealidades entre variables. La aplicación del ACP y el AFE se obtiene observar
en diversas disciplinas, es decir, en estudios de salud pública, un análisis factorial
exploratorio obtiene ayudar a identicar grupos de síntomas asociados con
enfermedades especícas.
Otro caso se encuentra en la investigación de mercado, donde las empresas
utilizan el ACP para segmentar a sus clientes en grupos más homogéneos
basados en sus preferencias y comportamientos de compra. Esto concede una
personalización de las estrategias de marketing que obtiene resultar en un
aumento signicativo de las ventas y la satisfacción del cliente. A pesar de sus
numerosas ventajas, el uso del ACP y el AFE en la investigación experimental
asimismo presenta limitaciones que deben ser consideradas.
Una de las principales preocupaciones es la interpretación de los factores
extraídos, que obtiene estar sujeta a la subjetividad del investigador, pues, la
elección del mero de componentes o factores a retener obtiene inuir en las
conclusiones del estudio. Por lo tanto, es crucial combinar estas técnicas con otras
metodologías de análisis y realizar validaciones cruzadas para asegurar la
robustez de los resultados.
15
Desde una perspectiva ética, los investigadores deben ser transparentes
sobre el uso de estas técnicas en sus publicaciones, informando sobre cómo se
seleccionaron las variables y los factores, así como sobre las implicaciones de los
hallazgos. La manipulación de los datos o la presentación selectiva de resultados
obtiene llevar a conclusiones engañosas y afectar la integridad de la
investigación. El ACP y el AFE son herramientas valiosas en la investigación
experimental que consiguen facilitar la comprensión de datos complejos y
mejorar el diseño de estudios. No obstante, su aplicación requiere una
orientación crítica y ética para garantizar resultados ables y signicativos.
El análisis de datos es un pilar fundamental en la investigación
experimental, y tanto el análisis de componentes principales (ACP) como el
análisis factorial exploratorio (AFE) tienen herramientas poderosas para la
comprensión y simplicación de conjuntos de datos complejos. El ACP, con su
tratamiento en la reducción de dimensiones, concede a los investigadores
concentrarse en las variables más relevantes, facilitando la interpretación de los
resultados (Ferrando y Anguiano, 2010). A través de un proceso metódico que
incluye la selección de componentes y su interpretación, el ACP se convierte en
un recurso valioso para la exploración de datos en diversas disciplinas. Sin
embargo, es fundamental recordar que el éxito de esta técnica depende de una
correcta aplicación y de una adecuada comprensión de los datos iniciales.
Por otro lado, el AFE complementa al ACP al permitir una exploración
más profunda de las estructuras subyacentes en los datos. La distinción entre
análisis factorial exploratorio y conrmatorio subraya la importancia de utilizar
cada técnica en el contexto adecuado. Determinar el número de factores y validar
los resultados extraídos son pasos críticos que no solo garantizan la robustez de
los hallazgos, sino que también refuerzan la conanza en las decisiones basadas
en dichos análisis (Lloret et al., 2014).
16
Las aplicaciones de estas técnicas en la investigación experimental son
vastas. Desde el diseño de experimentos hasta la interpretación de resultados, el
ACP y el AFE aportan un marco que obtiene ennoblecer la calidad de la
investigación. Empero, es esencial abordar estas metodologías con una
conciencia crítica de sus limitaciones y consideraciones éticas. La interpretación
de los datos y la comunicación de los resultados deben hacerse con transparencia
y responsabilidad, reconociendo que cada análisis conlleva implicaciones que
consiguen afectar a la comunidad de investigación y más allá.
El uso de técnicas como el análisis de componentes principales y el análisis
factorial exploratorio en la investigación experimental no solo engrandece el
proceso analítico, sino que también proporciona a los investigadores
herramientas necesarias para desentrañar la complejidad de los datos. Por lo
tanto, es vital que los investigadores continúen formándose en estas
metodologías, promoviendo un paradigma riguroso y ético en su aplicación.
1.2 Fiabilidad y Estadística en la Investigación Experimental:
Fundamentos, Métodos y Relevancia en los Resultados
La investigación experimental es un enfoque cientíco fundamental que
concede a los investigadores establecer relaciones causales entre variables
mediante la manipulación controlada de estas. A diferencia de otros métodos de
investigación, como los estudios observacionales, la investigación experimental
se caracteriza por su capacidad de controlar las condiciones en las que se lleva a
cabo el experimento, lo que proporciona un nivel de rigor y precisión superior en
la obtención de resultados.
La investigación experimental se dene como un proceso sistemático que
involucra la manipulación de una o más variables independientes para observar
el efecto que tiene sobre una o más variables dependientes. Este diseño concede
17
a los investigadores establecer hipótesis y someterlas a prueba en condiciones
controladas. Las características clave de la investigación experimental incluyen
la asignación aleatoria de sujetos a grupos, el control de variables extrínsecas y la
repetibilidad de los experimentos.
La abilidad es un concepto crucial en la investigación experimental, ya
que se reere a la consistencia y estabilidad de las medidas obtenidas. Un estudio
es considerado able si los resultados son reproducibles y no varían
signicativamente bajo condiciones similares. La abilidad es esencial para
garantizar que las conclusiones extraídas de un experimento sean válidas y
puedan ser generalizadas a otras situaciones o poblaciones (Manterola et al.,
2018). Sin un nivel adecuado de abilidad, los resultados de la investigación
consiguen ser cuestionados, lo que disminuye la credibilidad del estudio y
obtiene llevar a interpretaciones erróneas de los datos.
La abilidad es un componente fundamental en la investigación
experimental, ya que se reere a la consistencia y estabilidad de las mediciones
obtenidas a través de los instrumentos y métodos utilizados. Una alta abilidad
asegura que los resultados obtenidos sean reproducibles y no estén inuenciados
por errores sistemáticos o aleatorios. Existen varios tipos de abilidad que son
cruciales para la validez de los estudios experimentales:
* Fiabilidad test-retest: Este tipo de abilidad se reere a la consistencia de los
resultados cuando se aplica el mismo instrumento de medida en dos momentos
diferentes. Para evaluarla, se calcula el coeciente de correlación entre las
puntuaciones obtenidas en ambas ocasiones. Una alta correlación indica que el
instrumento produce resultados consistentes a lo largo del tiempo.
* Fiabilidad interevaluador: Se reere a la consistencia de las mediciones realizadas
por diferentes evaluadores. Es fundamental en estudios donde la subjetividad
18
obtiene inuir en la recolección de datos, como en la observación de conductas o
en la evaluación de respuestas cualitativas. Para evaluar esta abilidad, se
consiguen utilizar coecientes como el kappa de Cohen, que mide el grado de
acuerdo entre evaluadores.
* Fiabilidad interna: Este tipo de abilidad se reere a la consistencia de las
respuestas dentro de un mismo instrumento de medición. Se evalúa comúnmente
mediante el coeciente alpha de Cronbach, que indica en qué medida los ítems
de un cuestionario miden el mismo constructo. Una alta abilidad interna
implica que los ítems son homogéneos y que el instrumento es conable.
Para garantizar que los instrumentos de medición sean ables, existen
varios métodos que los investigadores consiguen utilizar:
* Cálculo de coecientes de abilidad: Este método implica el uso de fórmulas
estadísticas para calcular coecientes que reejan la abilidad de los
instrumentos. Los coecientes más comunes incluyen el alpha de Cronbach para
la abilidad interna y los coecientes de correlación para la abilidad test-retest.
* Análisis de varianza: El análisis de varianza (ANOVA) obtiene ser utilizado para
evaluar la variabilidad entre grupos y determinar si los resultados son
consistentes a través de diferentes condiciones experimentales. Un ANOVA bien
diseñado obtiene ayudar a identicar si las diferencias observadas en los
resultados son signicativas y no el producto de errores aleatorios.
* Métodos de comparación: Del mismo modo se consiguen utilizar métodos de
comparación, como la comparación de medias entre diferentes grupos o
condiciones, para evaluar la abilidad de los resultados. Estos métodos conceden
observar si las diferencias en los resultados son consistentes y replicables.
La abilidad tiene un impacto signicativo en la interpretación de los
resultados de la investigación experimental. Un estudio con alta abilidad
19
proporciona conanza en que los resultados son representativos y que las
conclusiones extraídas son válidas. Por el contrario, un estudio con baja abilidad
obtiene llevar a conclusiones erróneas y a la imposibilidad de replicar los
hallazgos en investigaciones futuras. Por lo tanto, es imperativo que los
investigadores presten atención a los aspectos de abilidad durante el diseño y
la ejecución de sus estudios, asegurando así la calidad y la credibilidad de su
trabajo. La estadística juega un papel fundamental en la investigación
experimental, ya que proporciona las herramientas necesarias para analizar e
interpretar los datos obtenidos a través de los experimentos.
La estadística aplicada se reere al uso de métodos estadísticos para
resolver problemas prácticos en diversas disciplinas, incluyendo la investigación
cientíca. En el contexto de la investigación experimental, la estadística concede
a los investigadores resumir, analizar y extraer conclusiones de los datos
recopilados. Los conceptos fundamentales incluyen la población y la muestra, la
variabilidad de los datos, y la inferencia estadística, que implica hacer
armaciones sobre una población a partir de una muestra representativa
(Villegas, 2019). Es vital que los investigadores comprendan la diferencia entre
estadísticas descriptivas, que resumen y describen las características de un
conjunto de datos, y estadísticas inferenciales, que conceden hacer
generalizaciones o predicciones sobre una población más amplia basándose en
los datos de la muestra.
En la investigación experimental, diversas técnicas estadísticas son
utilizadas para analizar los datos y evaluar hipótesis. Algunas de las más
comunes son:
* Análisis de varianza (ANOVA): Esta técnica se utiliza para comparar las medias
de tres o más grupos para determinar si existe una diferencia estadísticamente
signicativa entre ellos. ANOVA ayuda a identicar si las variables
20
independientes tienen un efecto en la variable dependiente y es especialmente
útil en experimentos donde se manipulan múltiples factores.
* Regresión lineal: La regresión lineal se utiliza para modelar la relación entre una
variable dependiente y una o más variables independientes. Concede a los
investigadores predecir resultados y entender la fuerza y la dirección de las
relaciones entre variables. Esta técnica es valiosa en estudios en los que se desea
analizar cómo cambian los resultados en función de diferentes condiciones o
tratamientos.
* Pruebas de hipótesis: Las pruebas de hipótesis son un conjunto de procedimientos
estadísticos utilizados para decidir si aceptar o rechazar una armación sobre
una población basándose en datos de muestra. Estas pruebas conceden a los
investigadores evaluar la signicancia de sus resultados y determinar si las
observaciones son el resultado de un efecto real o simplemente variabilidad
aleatoria.
La interpretación de los resultados estadísticos es una parte crucial del
proceso de investigación. Los investigadores deben ser capaces de comunicar de
manera clara y precisa lo que los datos signican en el contexto de sus hipótesis
y objetivos de estudio. Esto incluye la comprensión de conceptos como el valor
p, que indica la probabilidad de que los resultados observados hayan ocurrido
por azar, y el intervalo de conanza, que proporciona un rango dentro del cual
se espera que se encuentre el verdadero valor de la población. Además, es
esencial que los investigadores reconozcan las limitaciones de sus análisis
estadísticos y consideren factores como el tamaño de la muestra, la validez de los
supuestos estadísticos y el contexto del estudio. Una interpretación adecuada de
los resultados no solo fortalece la credibilidad de la investigación, sino que
también guía futuras investigaciones y decisiones prácticas en el campo
correspondiente.
21
La estadística es una herramienta indispensable en la investigación
experimental, ya que concede a los investigadores analizar datos, evaluar
hipótesis y extraer conclusiones signicativas. A través del uso adecuado de
técnicas estadísticas y una interpretación cuidadosa de los resultados, los
investigadores consiguen contribuir efectivamente al avance del conocimiento en
sus respectivas áreas. En primer lugar, la abilidad se establece como un
componente esencial en la investigación experimental. La capacidad de un
instrumento de medir de manera consistente y estable a lo largo del tiempo y
entre diferentes evaluadores es crucial para obtener resultados que puedan ser
replicados y generalizados. Las diversas formas de abilidad, como la test-retest,
la interevaluador y la interna, presentan diferentes perspectivas sobre la
precisión de las medidas, y su evaluación rigurosa es indispensable para asegurar
que los datos obtenidos sean ables.
Además, hemos discutido que la evaluación de la abilidad a través de
métodos estadísticos, como el cálculo de coecientes y el análisis de varianza,
concede a los investigadores identicar áreas de mejora en sus métodos de
recolección de datos. La importancia de estos análisis no obtiene ser subestimada,
ya que un estudio con baja abilidad obtiene conducir a conclusiones erróneas y
afectar negativamente la credibilidad del campo de estudio. Por otro lado, la
estadística aplicada proporciona las herramientas necesarias para interpretar los
datos recopilados en investigaciones experimentales. Técnicas como el ANOVA,
la regresión lineal y las pruebas de hipótesis son esenciales para analizar la
variabilidad en los datos y entender las relaciones entre variables. La correcta
aplicación y la interpretación de estas técnicas estadísticas no solo ayudan a
validar los resultados, sino que asimismo facilitan la toma de decisiones basadas
en evidencia.
22
La interdependencia entre la abilidad y la estadística en la investigación
experimental no obtiene ser ignorada. Juntas, estas disciplinas conceden a los
investigadores construir un marco sólido para la investigación, donde los
resultados son no solo signicativos, sino igualmente replicables y aplicables en
contextos reales. Por lo tanto, es imperativo mantener un camino riguroso en la
evaluación de la abilidad y en la aplicación de técnicas estadísticas adecuadas,
asegurando así que la investigación experimental continúe aportando
conocimiento valioso y able a la comunidad cientíca y a la sociedad en general.
1.3 Características relacionadas al análisis de componentes
principales: Análisis de coordenadas principales y de
correspondencias
El análisis de coordenadas es una técnica estadística fundamental que
concede visualizar y analizar datos multidimensionales. En un mundo donde la
cantidad de información disponible crece exponencialmente, la necesidad de
simplicar y entender estos datos se vuelve imperativa. Esta dirección busca
transformar datos complejos en representaciones más manejables, facilitando la
interpretación y la toma de decisiones informadas. El análisis de coordenadas se
reere a un conjunto de métodos estadísticos que conceden representar datos en
un espacio de menor dimensión (Araya, 2012). Su objetivo principal es identicar
patrones y relaciones subyacentes en los datos, así como reducir la complejidad
de múltiples variables sin perder la esencia de la información. A través de esta
simplicación, se consiguen extraer características relevantes que no serían
evidentes en un análisis más supercial.
La relevancia del análisis de coordenadas en el ámbito estadístico y de
investigación radica en su capacidad para manejar grandes volúmenes de datos.
Concede a los investigadores descubrir tendencias, agrupar elementos similares
23
y visualizar relaciones entre variables. Esta técnica es individualmente útil en
campos como la psicología, la biología, la economía y el marketing, donde la
interpretación de datos complejos es crucial para el desarrollo de teorías y la
formulación de estrategias.
El análisis de coordenadas encuentra aplicaciones en diversas áreas. En el
ámbito de la ciencia de datos, se utiliza para la reducción de la dimensionalidad
en conjuntos de datos, facilitando la construcción de modelos predictivos. En las
ciencias sociales, ayuda a explorar las relaciones entre diferentes factores sociales
y económicos. En biología, se aplica para analizar la diversidad genética y la
clasicación de especies. Además, en el sector empresarial, se utiliza para
segmentar mercados y entender mejor el comportamiento del consumidor.
El análisis de coordenadas es una herramienta poderosa que concede a
investigadores y profesionales desentrañar la complejidad de los datos
multidimensionales, contribuyendo signicativamente a la comprensión de
fenómenos en diversas disciplinas. El análisis de coordenadas principales,
comúnmente conocido como Análisis de Componentes Principales (ACP), es una
técnica estadística que concede reducir la dimensionalidad de un conjunto de
datos.
El objetivo principal del análisis de coordenadas principales es identicar
las direcciones (o componentes) en las que los datos varían de manera más
signicativa. En términos simples, el ACP transforma un conjunto de variables
posiblemente correlacionadas en un nuevo conjunto de variables no
correlacionadas, denominadas componentes principales. Estas componentes se
ordenan de tal manera que la primera componente principal captura la mayor
parte de la varianza presente en los datos, la segunda componente captura la
segunda mayor parte de la varianza, y así sucesivamente. Matemáticamente, el
ACP se basa en la descomposición de la matriz de covarianzas o correlaciones de
24
los datos. Esta transformación concede representar los datos originales en un
espacio de menor dimensión, facilitando la visualización y el análisis sin perder
información signicativa.
El proceso de realizar un análisis de componentes principales implica
varios pasos clave. Primero, es necesario estandarizar los datos, especialmente si
las variables tienen diferentes escalas. Esto se logra restando la media y
dividiendo por la desviación estándar de cada variable. Una vez que los datos
están estandarizados, se procede a calcular la matriz de covarianzas o
correlaciones. Posteriormente, se aplican técnicas de álgebra lineal, como la
descomposición en valores propios (eigenvalue decomposition) o la
descomposición en valores singulares (SVD), para extraer los componentes
principales (Jollie y Cadima, 2016).
Estos métodos conceden identicar los vectores propios (eigenvectors) y
sus correspondientes valores propios (eigenvalues), que son fundamentales para
determinar la importancia de cada componente. Por ende, los datos originales se
proyectan sobre los componentes principales, generando un nuevo conjunto de
variables que representan las características más relevantes de los datos
originales.
La interpretación de los resultados del ACP es crucial para entender la
estructura subyacente de los datos, cada componente principal obtiene ser
analizado para determinar qué variables contribuyen más a su formación
(Arroyo, 2016). Incluso, la varianza explicada por cada componente es un
indicador clave que concede evaluar cuánta información de los datos originales
se retiene en el nuevo conjunto de variables. Generalmente, se busca un número
reducido de componentes que explique un alto porcentaje de la varianza total,
facilitando así una interpretación más sencilla y efectiva de los datos.
25
Por lo tanto, las grácas de dispersión de los componentes principales son
herramientas visuales valiosas que conceden observar patrones, agrupamientos
y posibles datos atípicos, lo que obtiene revelar información adicional sobre la
estructura de los mismos. El análisis de coordenadas principales es una técnica
poderosa que, al reducir la dimensionalidad de los datos, facilita la identicación
de patrones y relaciones signicativas.
El análisis de correspondencia es una técnica estadística utilizada para
explorar y visualizar la relación entre dos o más variables categóricas. A través
de esta metodología, se busca representar grácamente las frecuencias
observadas en una tabla de contingencia, permitiendo identicar patrones y
asociaciones entre los diferentes grupos de datos. En esencia, el análisis de
correspondencia transforma datos categóricos en un espacio geométrico,
facilitando la interpretación de las relaciones subyacentes de una manera
intuitiva.
Si bien el análisis de correspondencia y el análisis de coordenadas
principales comparten el objetivo de reducir la dimensionalidad de los datos y
facilitar su interpretación, existen diferencias clave en su aplicación y en los tipos
de datos que manejan. El análisis de coordenadas principales se aplica a datos
cuantitativos y busca identicar las dimensiones que capturan la mayor parte de
la variabilidad en los datos (Abdullah et al., 2020). En contraste, el análisis de
correspondencia se agrupa en variables categóricas, proporcionando una
representación gráca que muestra cómo las categorías se relacionan entre en
función de las frecuencias observadas. En suma, mientras que el análisis de
coordenadas principales se basa en la varianza y la covarianza de los datos, el
análisis de correspondencia se fundamenta en la estructura de correspondencias,
utilizando la distancia euclidiana en un espacio de menor dimensión
26
El análisis de correspondencia es ampliamente utilizado en diversas áreas,
incluyendo marketing, sociología y estudios de opinión, debido a su capacidad
para desentrañar relaciones complejas entre categorías. A saber, en un estudio de
mercado, un investigador obtiene emplear el análisis de correspondencia para
analizar las preferencias de los consumidores en relación con diferentes marcas
y características de productos. Al representar grácamente los resultados, el
investigador obtiene identicar grupos de consumidores que comparten
preferencias similares, lo cual obtiene ser invaluable para la segmentación de
mercado.
Otro modelo se encuentra en el ámbito de la sociología, donde el análisis
de correspondencia se utiliza para examinar la relación entre diferentes variables
demográcas y patrones de comportamiento social. Es decir, al analizar la
relación entre el nivel educativo y las actitudes hacia cuestiones sociales, los
investigadores consiguen identicar agrupaciones de individuos que comparten
características y opiniones, lo que obtiene conducir a una mejor comprensión de
las dinámicas sociales. El análisis de correspondencia proporciona una
herramienta poderosa para el análisis de datos categóricos, permitiendo a los
investigadores visualizar y comprender las relaciones de manera efectiva, y
facilitando la toma de decisiones basada en datos.
Los hallazgos de este análisis sugieren que tanto el análisis de coordenadas
principales como el análisis de correspondencia son esenciales para
investigadores que buscan interpretar datos complejos. La capacidad de estas
metodologías para simplicar la información y resaltar patrones subyacentes no
solo facilita la comprensión, sino que encima obtiene guiar la toma de decisiones
en múltiples disciplinas. Se recomienda que los investigadores consideren la
integración de estas metodologías en sus análisis para dignicar sus hallazgos y
aportar valor a sus campos de estudio.
27
Si bien el análisis de coordenadas principales y el análisis de
correspondencia son herramientas valiosas, su correcta implementación requiere
un entendimiento profundo de los datos en cuestión y de los supuestos que cada
técnica conlleva. La selección del método adecuado depende del tipo de datos y
de los objetivos de la investigación, lo que resalta la necesidad de una formación
sólida en estadística y análisis de datos. El dominio de estas técnicas no solo
ennoblece el análisis, sino que de igual modo empodera a los investigadores para
enfrentar los escenarios que presentan los datos en la era moderna.
28
Capítulo II
Análisis de Componentes Principales: Fundamentos,
Aplicaciones y Consideraciones en la Investigación
Experimental
El análisis de componentes principales (PCA, por sus siglas en inglés) es
una técnica estadística ampliamente utilizada en diversas disciplinas para
reducir la dimensionalidad de grandes conjuntos de datos. Desde su
introducción en la década de 1900, el PCA ha evolucionado y se ha adaptado,
convirtiéndose en una herramienta fundamental en la investigación
experimental. En un mundo donde la cantidad de datos generados es cada vez
mayor, la capacidad de simplicar esta información sin perder su esencia se
vuelve crucial.
El análisis de componentes principales es un método matemático que
transforma un conjunto de variables posiblemente correlacionadas en un
conjunto de variables no correlacionadas, denominadas componentes
principales. Estos componentes son combinaciones lineales de las variables
originales y se ordenan de tal manera que el primer componente captura la
mayor parte de la variabilidad presente en los datos, seguido por el segundo
componente, y así sucesivamente (León et al., 2008). Esta técnica concede a los
investigadores identicar patrones en los datos y resaltar las características más
signicativas que contribuyen a la variabilidad observada.
La importancia del PCA radica en su capacidad para simplicar la
complejidad de los datos sin sacricar la información clave. En investigaciones
29
experimentales, donde los investigadores a menudo se enfrentan a múltiples
variables que consiguen estar interrelacionadas, el PCA proporciona una manera
eciente de visualizar y analizar estas relaciones. Al reducir el número de
variables necesarias para describir un fenómeno, el PCA facilita la identicación
de tendencias y la formulación de hipótesis, lo que obtiene resultar en
descubrimientos cientícos signicativos. Para comprender completamente esta
técnica, es esencial explorar sus fundamentos teóricos, que abarcan desde las
matemáticas subyacentes hasta la interpretación de los resultados.
2.1 Matemáticas, biología y ciencias sociales detrás del PCA
El PCA se basa en la descomposición de la matriz de covarianza de un
conjunto de datos. Esta matriz describe cómo varían las diferentes dimensiones
entre sí. El primer paso en el PCA es En esa misma línea los datos, restando la
media de cada variable para que los datos tengan una media de cero. Luego, se
calcula la matriz de covarianza, que concede evaluar las relaciones entre las
variables. Los valores propios indican la cantidad de varianza que se encuentra
en cada componente principal, mientras que los vectores propios representan la
dirección de estos componentes en el espacio multidimensional. Al seleccionar
los componentes principales con los mayores valores propios, se obtiene reducir
la dimensionalidad del conjunto de datos, reteniendo la mayor parte de la
información relevante.
Los componentes principales son combinaciones lineales de las variables
originales y se ordenan de acuerdo con la cantidad de varianza que explican. El
primer componente principal captura la mayor varianza, seguido del segundo,
que es ortogonal al primero y captura la siguiente mayor cantidad de varianza, y
así sucesivamente. Esta propiedad de ortogonalidad es fundamental, ya que
asegura que los componentes principales son independientes entre sí. La
interpretación de los componentes principales obtiene ser compleja. A menudo,
30
es útil visualizar los datos en el espacio de los primeros dos o tres componentes
principales mediante grácos de dispersión. Esto no solo ayuda a identicar
patrones o grupos en los datos, sino que también concede entender cómo las
variables originales contribuyen a cada componente. En concreto, un
componente obtiene estar fuertemente inuenciado por algunas variables,
mientras que otras consiguen tener un impacto menor.
A pesar de su utilidad, el PCA tiene limitaciones que deben ser
consideradas. En primer lugar, asume que las relaciones entre las variables son
lineales, lo que obtiene no ser el caso en muchos conjuntos de datos. En suma, el
PCA es sensible a la escala de las variables; por lo tanto, es recomendable
estandarizar los datos antes de aplicar el análisis, especialmente si las variables
tienen diferentes unidades de medida. Otra limitación es que el PCA no obtiene
capturar la estructura no lineal de los datos. Para estos casos, se han desarrollado
técnicas complementarias, como el análisis de componentes principales no
lineales (NL-PCA) o el uso de métodos de aprendizaje automático que consiguen
abordar relaciones más complejas.
El PCA asimismo obtiene ser afectado por la presencia de valores atípicos,
que consiguen distorsionar la estructura de los datos y llevar a una interpretación
errónea de los componentes principales. Por lo tanto, es crucial realizar un
análisis exploratorio previo y considerar la limpieza de los datos antes de
proceder con el PCA (Kwak y Kim, 2017). En el ámbito de la biología y la
medicina, el PCA se utiliza para analizar grandes volúmenes de datos genómicos
y clínicos. Para ilustrar, en estudios de expresión génica, el PCA ayuda a
identicar patrones de expresión y a reducir la dimensionalidad de los datos, lo
que facilita la identicación de genes asociados con enfermedades especícas.
Además, en estudios de metabolómica, el PCA concede agrupar muestras
según perles metabólicos, ayudando a los investigadores a descubrir
31
biomarcadores para diversas condiciones clínicas. Estos paradigmas no solo
optimizan el análisis de datos, sino que también mejoran la interpretación de los
resultados, lo que obtiene conducir a mejores diagnósticos y tratamientos
personalizados.
En las ciencias sociales, el PCA se aplica para explorar y resumir datos
complejos, como encuestas y estudios de opinión. A saber, en investigaciones
sobre actitudes y comportamientos, el PCA obtiene ayudar a identicar factores
subyacentes que inuyen en las respuestas de los encuestados. Este tratamiento
es característicamente útil en el análisis de datos de múltiples dimensiones,
donde los investigadores buscan simplicar la información y revelar relaciones
intrínsecas entre variables. Al hacer esto, el PCA no solo facilita la interpretación
de los datos, sino que siempre concede a los investigadores desarrollar teorías
más robustas basadas en patrones emergentes.
En los campos de la ingeniería y la tecnología, el PCA se emplea en el
análisis de datos de rendimiento y calidad. En concreto, en la ingeniería de
materiales, el PCA se utiliza para analizar propiedades de materiales
compuestos, ayudando a identicar las características que más afectan el
rendimiento. En el ámbito de la inteligencia articial y el aprendizaje automático,
el PCA se aplica para la reducción de dimensiones en conjuntos de datos de alta
dimensionalidad, mejorando la eciencia de los algoritmos y la precisión de los
modelos predictivos. La capacidad del PCA para simplicar datos complejos se
traduce en un procesamiento más eciente y en una mejor comprensión de las
variables que impactan en los resultados tecnológicos.
El PCA se ha convertido en una herramienta indispensable en diversas
disciplinas de investigación experimental. Su capacidad para reducir la
dimensionalidad y revelar patrones signicativos concede a los investigadores
abordar problemas complejos de manera s efectiva, favoreciendo así el avance
32
del conocimiento en múltiples campos. La selección adecuada de variables es un
paso crucial en el proceso de PCA. Las variables deben ser relevantes para la
pregunta de investigación y deben capturar la variabilidad del fenómeno que se
está estudiando. Es esencial evitar la inclusión de variables altamente
correlacionadas, ya que esto obtiene llevar a redundancias y distorsionar los
resultados del análisis.
Además, los investigadores deben asegurarse de que las variables estén en
la misma escala o, de lo contrario, normalizar los datos para que cada variable
contribuya de manera equitativa al análisis. Una práctica útil es realizar un
análisis exploratorio de datos previo al PCA. Esto obtiene implicar la
visualización de las correlaciones entre variables mediante matrices de
correlación o grácos de dispersión. Este análisis obtiene ayudar a identicar
redundancias y guiar la selección de variables que aporten información única y
signicativa al modelo.
Una vez que se ha realizado el PCA, la interpretación de los resultados es
fundamental para extraer conclusiones signicativas; los componentes
principales resultantes deben ser analizados no solo en términos de su varianza
explicada, sino del mismo modo en relación con las variables originales que los
componen. Es importante entender qué signican estos componentes en el
contexto del fenómeno estudiado. La visualización de los resultados del PCA
juega un papel crucial en la interpretación. Herramientas como grácos biplot,
que representan tanto las observaciones como las variables en el mismo espacio,
consiguen facilitar la comprensión de la estructura de los datos. Incluso, los
grácos de scree plot, que muestran la varianza explicada por cada componente,
consiguen ser útiles para determinar cuántos componentes deben ser retenidos
para un análisis posterior.
33
Para maximizar el impacto del PCA en futuras investigaciones, es
recomendable seguir ciertas prácticas. Primero, documentar cuidadosamente el
proceso de selección de variables y las decisiones tomadas durante el análisis es
esencial para la reproducibilidad del estudio. Los investigadores deben ser
transparentes sobre las limitaciones del PCA y considerar el uso de métodos
complementarios que puedan abordar aspectos que el PCA no capta, como
análisis de clúster o modelos de regresión. Asimismo, se sugiere realizar un
análisis de sensibilidad para evaluar cómo las variaciones en la selección de
variables afectan los resultados del PCA. Esto obtiene proporcionar una mayor
comprensión de la robustez de los componentes principales identicados.
Fomentar una cultura de colaboración interdisciplinaria obtiene
enriquecer el uso del PCA, ya que diferentes campos consiguen prometer
perspectivas valiosas sobre la interpretación de los datos y la relevancia de las
variables seleccionadas. Las consideraciones prácticas al realizar PCA son
esenciales para asegurar análisis robustos y signicativos en la investigación
experimental. La correcta selección de variables, una interpretación cuidadosa de
los resultados y una perspectiva reexiva hacia futuras investigaciones ayudarán
a maximizar el potencial de esta técnica poderosa (Villarroel et al., 2003).
El PCA no solo proporciona un método efectivo para simplicar datos
complejos, sino que encima abre nuevas vías para la investigación
interdisciplinaria. Las implicaciones del PCA se extienden más allá de la mera
reducción de datos; su capacidad para revelar relaciones ocultas y estructuras en
los datos obtiene impulsar descubrimientos signicativos en múltiples
disciplinas.
Ahora bien, es crucial que los investigadores sean conscientes de las
limitaciones y supuestos del PCA, asegurándose de que su aplicación sea
adecuada para el contexto especíco de su investigación. Con un uso cuidadoso
34
y considerado, el PCA obtiene transformar la manera en que interpretamos y
utilizamos los datos, facilitando así un avance signicativo en el conocimiento
cientíco.
2.2 Integrando la Teoría de Bayes en el Análisis de Componentes
Principales: Fundamentos, Aplicaciones y Perspectivas Futuras
La Teoría de Bayes, formulada en el siglo XVIII por el matemático Thomas
Bayes, es un pilar fundamental en la estadística moderna. Esta teoría proporciona
un marco formal para actualizar nuestras creencias sobre un fenómeno a medida
que se obtiene nueva información. La esencia de la Teoría de Bayes radica en el
teorema de Bayes, que establece una relación entre la probabilidad condicional y
marginal de eventos, permitiendo calcular la probabilidad de un evento dado
otro evento (Canals, 2023). La Teoría de Bayes se basa en la idea de que nuestras
creencias sobre la probabilidad de un evento consiguen ser ajustadas al
incorporar información adicional. En términos matemáticos, el teorema se
expresa como:
\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]
donde \( P(A|B) \) es la probabilidad de que ocurra el evento \( A \) dado que
ha ocurrido el evento \( B \), \( P(B|A) \) es la probabilidad de que ocurra \( B
\) dado que \( A \) ha ocurrido, \( P(A) \) es la probabilidad a priori de \( A \),
y \( P(B) \) es la probabilidad total de \( B \).
La Teoría de Bayes es crucial en estadística debido a su punto de vista en
la actualización de creencias y su capacidad para manejar la incertidumbre de
manera efectiva. A diferencia de los métodos frecuentistas, que se basan en la
repetición de experimentos y la construcción de intervalos de conanza, la
inferencia bayesiana concede incorporar información previa y ajustar las
35
estimaciones en función de nuevos datos. Esto es especialmente valioso en
situaciones donde los datos son escasos o costosos de obtener.
La Teoría de Bayes tiene una amplia gama de aplicaciones prácticas en
diversos campos, que van desde la medicina hasta la inteligencia articial. En
medicina, en concreto, se utiliza para calcular la probabilidad de que un paciente
tenga una enfermedad dado un resultado de prueba. En el ámbito de la
inteligencia articial, se aplica en algoritmos de aprendizaje automático, como
los clasicadores bayesianos, que son herramientas poderosas para la toma de
decisiones en condiciones de incertidumbre. En esa misma línea, la Teoría de
Bayes es fundamental en la inferencia estadística, donde concede realizar
estimaciones y predicciones basadas en datos empíricos.
El análisis de componentes principales (PCA, por sus siglas en inglés) es
una técnica estadística utilizada para reducir la dimensionalidad de un conjunto
de datos, preservando al mismo tiempo la mayor cantidad posible de
variabilidad presente en los mismos. Esta técnica transforma un conjunto de
variables correlacionadas en un nuevo conjunto de variables, llamadas
componentes principales, que son linealmente independientes entre sí. Estas
nuevas variables se ordenan de tal manera que el primer componente principal
captura la mayor parte de la variación en los datos, el segundo componente
captura la siguiente mayor cantidad de variación, y así sucesivamente.
PCA es particularmente útil en situaciones donde los datos originales
tienen una alta dimensionalidad, lo que obtiene dicultar la visualización y el
análisis. Al reducir el mero de variables, PCA facilita la identicación de
patrones y relaciones subyacentes en los datos. Los principales objetivos del
análisis de componentes principales son:
36
* Reducción de dimensionalidad: Disminuir el número de variables en un conjunto
de datos sin perder información signicativa. Esto es crucial en el análisis de
datos de alta dimensión, donde el ruido obtiene interferir con el análisis.
* Identicación de patrones: Facilitar la visualización de estructuras en los datos que
consiguen no ser evidentes en el espacio de alta dimensión. Al proyectar los datos
en un espacio de menor dimensión, los investigadores consiguen identicar
clústeres o tendencias.
* Mejora del rendimiento de modelos predictivos: Al eliminar variables redundantes
y correlacionadas, PCA ayuda a mejorar la eciencia y precisión de algoritmos
de aprendizaje automático.
* Compresión de datos: Reducir el tamaño de los datos almacenados o transmitidos
sin perder cualidades fundamentales, lo que es especialmente útil en el contexto
de procesamiento de imágenes o señales.
El cálculo del PCA generalmente implica varios pasos clave:
* Normalización de datos: Antes de aplicar PCA, es fundamental normalizar los
datos para que cada variable tenga una media de cero y una varianza de uno.
Esto asegura que todas las variables contribuyan de manera equitativa al análisis,
evitando que las variables con mayor escala dominen el resultado.
* Cálculo de la matriz de covarianza: La matriz de covarianza se utiliza para
identicar cómo varían conjuntamente las diferentes variables. Un análisis de
covarianza ayuda a determinar la correlación entre las variables y es un paso
crucial para realizar PCA.
* Cálculo de los vectores y valores propios: A partir de la matriz de covarianza, se
calculan los vectores propios (que representan la dirección de los nuevos
componentes) y los valores propios (que indican la cantidad de varianza
37
explicada por cada componente). Los componentes principales se obtienen a
partir de los vectores propios correspondientes a los valores propios más altos.
* Proyección de los datos: Los datos originales se proyectan sobre los componentes
principales seleccionados, lo que resulta en un nuevo conjunto de datos en un
espacio de menor dimensión.
El PCA es una herramienta poderosa en el análisis de datos, y su correcta
implementación obtiene proporcionar información valiosa sobre la estructura y
las relaciones en los datos. Pero, todavía es importante tener en cuenta sus
limitaciones y las suposiciones subyacentes que consiguen inuir en los
resultados. La integración de la Teoría de Bayes en el análisis de componentes
principales (PCA) representa una evolución signicativa en la manera en que se
aborda la reducción de la dimensionalidad y el análisis de datos (Kamalov et al.,
2025). Esta combinación concede no solo la identicación de patrones
subyacentes en los datos, sino también la incorporación de incertidumbre y
conocimiento previo a través de modelos bayesianos.
Los modelos bayesianos en PCA se basan en la idea de que los datos
observados son generados a partir de un proceso estocástico que obtiene ser
modelado de manera probabilística. En este contexto, se obtiene considerar que
cada componente principal es una variable aleatoria que se distribuye según una
determinada función de probabilidad. La formulación bayesiana de PCA
concede incorporar información previa sobre la estructura de los datos, lo que
obtiene ser especialmente útil en situaciones donde se dispone de conocimiento
previo sobre la relación entre variables o se desea regularizar el problema de
ajuste.
Una de las aproximaciones más comunes es el uso del camino de "PCA
bayesiano", donde se asume que los datos observados se distribuyen alrededor
38
de un modelo lineal que incluye un término de error. Este enfoque concede
estimar no solo los componentes principales, sino también las incertidumbres
asociadas a estas estimaciones. De esta manera, los investigadores consiguen
obtener intervalos de conanza y evaluar la robustez de los resultados obtenidos.
La aplicación de la Teoría de Bayes en PCA presenta varias ventajas
signicativas. En primer lugar, la capacidad de incorporar información previa
sobre los parámetros del modelo concede mejorar la estimación de los
componentes principales, especialmente en conjuntos de datos pequeños o con
alta dimensionalidad. Esto es fundamental en el análisis de datos reales, donde
es común enfrentarse a problemas de escasez de datos o ruido (Rondón et al.,
2015).
Además, el punto de vista bayesiano proporciona una forma natural de
manejar la incertidumbre inherente a los datos. A través de la inferencia
bayesiana, es posible obtener distribuciones a posteriori para los componentes
principales y otros parámetros del modelo, lo que concede a los investigadores
realizar inferencias más informadas. Siempre se consiguen utilizar métodos de
selección de modelos bayesianos para identicar el número óptimo de
componentes principales, evitando así el sobreajuste.
La integración de la Teoría de Bayes en el análisis de componentes
principales ha encontrado aplicaciones en diversas áreas. Para ilustrar, en el
campo de la biología, se ha utilizado para analizar datos genéticos, donde el
número de variables (genes) obtiene ser signicativamente mayor que el número
de observaciones. En este contexto, un enfoque bayesiano concede identicar
patrones relevantes en los datos genéticos mientras se controla la incertidumbre
asociada a las estimaciones. Asimismo, en el ámbito del procesamiento de
imágenes, los modelos bayesianos de PCA han sido aplicados para la compresión
de imágenes y la eliminación de ruido. Al considerar la información previa sobre
39
la estructura de las imágenes, estos modelos consiguen mejorar la calidad de la
reconstrucción de imágenes a partir de datos comprimidos. La integración de la
Teoría de Bayes en el análisis de componentes principales no solo ennoblece la
metodología, sino que también aporta herramientas prácticas para abordar
problemas complejos en el análisis de datos.
La Teoría de Bayes proporciona un marco robusto para la inferencia
estadística, permitiendo la actualización de creencias a medida que se dispone de
nueva información. En el contexto del PCA, la integración de modelos bayesianos
no solo mejora la interpretación de los datos, sino que todavía concede manejar
la incertidumbre de manera más efectiva. Hemos visto que, al aplicar la Teoría de
Bayes en el PCA, se consiguen obtener resultados más precisos y signicativos,
facilitando la toma de decisiones informadas en diversas áreas de investigación.
El uso de la Teoría de Bayes en el análisis de datos está en constante
evolución. Con el avance de la tecnología y el aumento de la capacidad de
procesamiento de datos, es probable que veamos una mayor adopción de
paradigmas bayesianos en el análisis de componentes principales. Las técnicas
de aprendizaje automático y minería de datos están comenzando a incorporar
modelos bayesianos, lo que podría revolucionar la forma en que se realiza el
análisis de datos. Además, el desarrollo de nuevos algoritmos y herramientas
computacionales facilitará la implementación de estos métodos en conjuntos de
datos cada vez más complejos y grandes.
Para los investigadores interesados en aplicar la Teoría de Bayes al PCA,
se recomienda familiarizarse con las metodologías bayesianas y su
implementación en software estadístico. Explorar bibliotecas y paquetes que
faciliten el análisis bayesiano obtiene ser un buen punto de partida. Además, es
crucial considerar la naturaleza de los datos y el contexto del problema antes de
elegir un camino. La colaboración interdisciplinaria también obtiene ennoblecer
40
el análisis, ya que la combinación de conocimientos en estadística, teoría de la
probabilidad y el campo especíco de aplicación obtiene conducir a
descubrimientos más profundos y a una mejor comprensión de los fenómenos
estudiados. En última instancia, la integración de la Teoría de Bayes en el PCA
abre un camino prometedor para la innovación en el análisis de datos y su
interpretación.
2.3 Análisis de Componentes Principales en el Aprendizaje
Automático
El Análisis de Componentes Principales (PCA, por sus siglas en inglés) es
una técnica estadística fundamental utilizada para la reducción de
dimensionalidad en el análisis de datos. Su propósito principal es simplicar
conjuntos de datos complejos, permitiendo a los analistas y cientícos de datos
identicar patrones y tendencias que, de otro modo, podrían quedar ocultos en
la alta dimensionalidad (Toro et al., 2007). A través de la transformación de
variables originales en un nuevo conjunto de variables, denominadas
componentes principales, PCA ayuda a preservar la mayor cantidad de varianza
posible en los datos, facilitando así su interpretación y análisis.
El PCA transforma un conjunto de observaciones de variables
potencialmente correlacionadas en un conjunto de valores de variables no
correlacionadas, conocidas como componentes principales. Esta transformación
se realiza de tal manera que el primer componente principal tiene la mayor
varianza posible, y cada componente subsiguiente tiene la mayor varianza
posible bajo la condición de ser ortogonal a los componentes anteriores. En el
contexto del aprendizaje automático, PCA se ha convertido en una herramienta
crucial, ya que concede reducir la complejidad de los datos, mejorar la eciencia
41
de los algoritmos de aprendizaje y facilitar la visualización de datos de alta
dimensión.
La importancia del PCA radica en su capacidad para mejorar la
interpretación de datos y optimizar modelos de aprendizaje automático. Al
eliminar redundancias y reducir la dimensionalidad, se consiguen mitigar
problemas como el sobreajuste, además de mejorar el tiempo de procesamiento
y la precisión del modelo. El concepto de PCA fue introducido por el estadístico
Karl Pearson en 1901, si bien su formulación moderna fue desarrollada
posteriormente por otros investigadores. En lo histórico, PCA fue renado y
adoptado en diversas disciplinas, incluyendo la biología, la economía y la
psicología.
En el ámbito del aprendizaje automático, su popularidad ha crecido
exponencialmente desde la década de 1990, impulsada por el aumento en la
disponibilidad de grandes conjuntos de datos y la necesidad de técnicas efectivas
para su análisis. Hoy en día, PCA no solo se utiliza como una herramienta de
preprocesamiento, sino que encima ha sido la base para el desarrollo de métodos
más avanzados y complejos, como el Análisis de Correspondencias y el Análisis
de Discriminantes Lineales, ampliando aún más su aplicabilidad en el
aprendizaje automático y la ciencia de datos.
El PCA se aplica en una amplia gama de campos, desde la biomedicina
hasta la economía y la ingeniería. En biología, para ilustrar, se utiliza para
analizar datos genómicos, donde las variables consiguen ser extremadamente
numerosas y complejas. En el ámbito nanciero, los analistas utilizan PCA para
identicar factores de riesgo en carteras de inversión, ayudando a simplicar la
evaluación de activos.
42
En esa misma línea, en la ingeniería, PCA se aplica en el procesamiento de
imágenes y señales, donde obtiene ayudar a reducir la cantidad de datos
necesarios para el análisis sin perder información crítica. En el campo del
marketing, las empresas utilizan PCA para segmentar a sus clientes y
comprender mejor sus comportamientos de compra, optimizando así sus
estrategias. El Análisis de Componentes Principales es una técnica esencial en el
aprendizaje automático, con una rica historia y una amplia gama de aplicaciones
que continúan evolucionando conforme avanzan los algoritmos de inteligencia
articial, por ello Sun et al. (2023) expone que “El análisis de componentes
principales (PCA) se combina con la ANN, y se propone el algoritmo PCA-ANN, que
mejora aún más la precisión de la predicción”.
El Análisis de Componentes Principales (PCA) se fundamenta en
conceptos de álgebra lineal; para comprender completamente cómo funciona el
PCA, es esencial familiarizarse con algunos de estos conceptos matemáticos
clave. El álgebra lineal es la rama de las matemáticas que se ocupa de vectores,
matrices y espacios vectoriales. En el contexto del PCA, los conceptos de vectores
y matrices son fundamentales, un vector obtiene considerarse como un punto en
un espacio multidimensional, donde cada dimensión representa una
característica de los datos. Las matrices, por otro lado, conceden representar
conjuntos de datos, donde cada la representa una observación y cada columna
una característica.
En PCA, el objetivo es transformar un conjunto de variables posiblemente
correlacionadas en un conjunto de variables no correlacionadas, llamadas
componentes principales. Esta transformación se logra mediante la proyección
de los datos en un nuevo espacio, donde las dimensiones están ordenadas en
función de la varianza que explican. Así, las primeras dimensiones capturan la
mayor parte de la variabilidad presente en los datos. El corazón del PCA reside
43
en el cálculo de autovalores y autovectores de la matriz de covarianza del
conjunto de datos. Dada una matriz de datos \(X\), se calcula la matriz de
covarianza \(C\) como:
\[
C = \frac{1}{n-1} X^T X
\]
donde \(n\) es el mero de observaciones. Los autovalores y autovectores de
esta matriz nos conceden identicar la dirección y la magnitud de la varianza en
los datos. Un autovector representa una dirección en el espacio de características,
mientras que el autovalor correspondiente indica cuánta varianza se encuentra
en esa dirección. El siguiente paso consiste en ordenar los autovalores de mayor
a menor y seleccionar los primeros \(k\) autovectores asociados a los autovalores
más grandes. Estos autovectores forman una nueva base para el espacio de
características, y proyectar los datos sobre esta base nos proporciona los
componentes principales.
Antes de aplicar PCA, es crucial normalizar los datos, especialmente si las
características están en escalas diferentes. La normalización se realiza
típicamente restando la media y dividiendo por la desviación estándar,
convirtiendo así los datos en una distribución con media cero y varianza uno.
Esta práctica evita que las características con escalas mayores dominen el análisis,
permitiendo que PCA capture la estructura subyacente de los datos de manera
más efectiva. La normalización asegura que todas las características contribuyan
de manera equitativa al análisis, lo que resulta en componentes principales que
reejan las relaciones inherentes entre las variables originales. Sin esta etapa, los
resultados del PCA consiguen ser engañosos y poco representativos de la
verdadera estructura de los datos.
44
Los fundamentos matemáticos del PCA, que abarcan conceptos de álgebra
lineal, el cálculo de autovalores y autovectores, y la importancia de la
normalización de datos, son esenciales para entender y aplicar esta poderosa
técnica en el aprendizaje automático. Estos principios no solo facilitan el análisis
de grandes conjuntos de datos, sino que del mismo modo conceden una
interpretación más clara de los resultados, contribuyendo signicativamente a la
toma de decisiones informadas en diversos campos. Antes de aplicar PCA, es
crucial preparar adecuadamente los datos (Argibay, 2011). Esto incluye la
recolección de un conjunto de datos limpio y relevante, seguido de un análisis
exploratorio de datos (EDA) para detectar y manejar valores atípicos, datos
faltantes y otras anomalías.
Una vez que los datos están limpios, se recomienda normalizarlos, la
normalización es un paso esencial en PCA, ya que la técnica se basa en la varianza
de los datos. Si las características están en diferentes escalas, aquellas con mayor
varianza dominarán los resultados, lo que podría llevar a interpretaciones
erróneas. Por lo general, se utiliza la normalización Z-score (restar la media y
dividir por la desviación estándar) o la escalación Min-Max para llevar los datos
a un rango común. La implementación de PCA se obtiene realizar fácilmente
utilizando bibliotecas populares de Python como “scikit-learn”, “numpy” y
“pandas”. Ahora bien, se presenta un ejemplo básico de cómo utilizar “scikit-
learn” para realizar PCA:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
Cargar datos
data = pd.read_csv('datos.csv')
45
Normalizar los datos
scaler = StandardScaler()
data_scaled = scaler.t_transform(data)
Aplicar PCA
pca = PCA(n_components=2) Elegir el número de componentes principales
principal_components = pca.t_transform(data_scaled)
Crear un DataFrame con los componentes principales
df_pca = pd.DataFrame(data=principal_components, columns=['Componente 1',
'Componente 2'])
Este código ilustra cómo cargar un conjunto de datos, normalizarlo y
aplicar PCA para reducir la dimensionalidad a dos componentes principales.
“scikit-learn” ofrece funciones adicionales para visualizar la varianza explicada
por cada componente, lo que es útil para decidir cuántos componentes retener.
La interpretación de los resultados de PCA es un paso crítico que a menudo se
pasa por alto. Una vez que se han extraído los componentes principales, es
importante evaluar cuánta varianza explican y cómo se relacionan con las
variables originales.
La proporción de varianza explicada por cada componente se obtiene
calcular usando el atributo “explained_variance_ratio_” de la clase PCA. Esto
concede a los analistas decidir cuántos componentes son necesarios para retener
una cantidad signicativa de información del conjunto de datos original. Para
visualizar los resultados, se consiguen utilizar grácos de dispersión para
representar los datos en el espacio de los componentes principales. Esto no solo
ayuda a identicar patrones en los datos, sino que siempre concede observar la
46
distribución de diferentes clases (en caso de datos etiquetados) y posibles
agrupaciones.
Incluso, la matriz de componentes (que se obtiene acceder a través del
atributo “components_”) muestra cómo cada variable original contribuye a cada
componente principal. Esta información es valiosa para comprender las
relaciones entre las variables y el impacto que tienen en la estructura de los datos.
La implementación del PCA en proyectos de aprendizaje automático implica una
cuidadosa preparación de datos, el uso de herramientas adecuadas y una
interpretación crítica de los resultados. Al seguir estos pasos, los profesionales
del aprendizaje automático consiguen aprovechar al máximo la reducción de
dimensionalidad que muestra el PCA, optimizando así sus modelos y mejorando
la calidad de sus análisis.
En suma, con el avance de nuevos algoritmos y técnicas de aprendizaje
profundo, el PCA obtiene integrarse con métodos más sosticados, ampliando
su aplicabilidad y aumentando su potencial para facilitar descubrimientos en
áreas como la visión por computadora, el procesamiento de lenguaje natural y la
biotecnología. La combinación de PCA con técnicas de aprendizaje no
supervisado y supervisado todavía obtiene abrir nuevas vías para el análisis
exploratorio de datos.
Para aquellos interesados en profundizar en el Análisis de Componentes
Principales, se recomienda explorar recursos adicionales como libros, cursos en
línea y tutoriales prácticos que aborden tanto los fundamentos teóricos como las
aplicaciones prácticas de PCA. Además, la experimentación con conjuntos de
datos reales utilizando bibliotecas populares como Scikit-learn en Python obtiene
proporcionar una comprensión más profunda y práctica de cómo implementar
PCA de manera efectiva en proyectos de aprendizaje automático.
47
Capítulo III
Explorando el Análisis Factorial: Una Guía Integral para
la Investigación Experimental
El análisis factorial exploratorio (AFE) es una técnica estadística que
concede identicar la estructura subyacente de un conjunto de variables
observadas. Mediante este enfoque, los investigadores consiguen agrupar
variables correlacionadas y, a su vez, reducir la dimensionalidad de los datos,
facilitando su interpretación. Este método se utiliza ampliamente en diversas
disciplinas, especialmente en aquellas que implican la recolección de datos a
través de encuestas o cuestionarios, donde se busca comprender cómo diferentes
variables se relacionan y contribuyen a un fenómeno particular.
El AFE se erige como un conjunto de procedimientos estadísticos que
descubren patrones en los datos mediante la identicación de factores, que son
combinaciones lineales de las variables observadas. Entre los principales
objetivos del AFE es simplicar la complejidad de los datos, permitiendo a los
investigadores identicar dimensiones latentes que no son directamente
observables. Al revelar estas relaciones, el AFE expone una base para desarrollar
hipótesis y teorías más robustas en la investigación.
En el contexto de la investigación experimental, el AFE es fundamental, ya
que concede a los investigadores explorar cómo diferentes variables consiguen
inuir en un resultado especíco. Para ilustrar, en estudios de psicología, el AFE
obtiene ayudar a identicar las dimensiones de la personalidad que afectan el
comportamiento humano (Ato et al., 2013). Al utilizar esta técnica, los
investigadores consiguen diseñar experimentos más efectivos y dirigidos,
48
basados en el entendimiento de cómo las variables se interrelacionan. Esto no
solo optimiza la recolección de datos, sino que también mejora la validez interna
de los estudios.
Es esencial distinguir el AFE de otros métodos estadísticos, como el
análisis factorial conrmatorio (AFC) y el análisis de regresión. Mientras que el
AFE se utiliza para explorar datos y descubrir patrones sin hipótesis
preconcebidas, el AFC se basa en teorías y modelos especícos, vericando si los
datos se ajustan a un modelo predenido. Por otro lado, el análisis de regresión
se ajusta en predecir el valor de una variable dependiente a partir de una o más
variables independientes, sin necesariamente buscar la estructura subyacente de
los datos. Esta diferencia fundamental hace que el AFE sea una herramienta
valiosa en las fases iniciales de la investigación, donde la exploración y la
formulación de hipótesis son cruciales.
El análisis factorial exploratorio es una técnica poderosa que concede a los
investigadores desentrañar la complejidad de los datos y descubrir relaciones
subyacentes, lo que es fundamental en la investigación experimental. Su
aplicabilidad en diversas disciplinas y su capacidad para simplicar y estructurar
la información la convierten en una herramienta indispensable en el arsenal del
investigador moderno.
3.1 Metodología del análisis factorial exploratorio
La primera etapa en la realización de un AFE implica la selección de las
variables que se incluirán en el análisis, es crucial que estas variables sean
relevantes para el fenómeno que se está investigando. Los criterios de inclusión
consiguen variar según el contexto, pero generalmente se deben considerar
aspectos como la fundamentación teórica, la relevancia empírica y la
multicolinealidad entre las variables (Lloret et al., 2014). Además, es
49
recomendable contar con un tamaño de muestra adecuado, ya que un número
insuciente de observaciones obtiene afectar la estabilidad y la replicabilidad de
los factores identicados. Una regla común es tener al menos 5 a 10 observaciones
por variable.
Una vez seleccionadas las variables, el siguiente paso es la extracción de
factores. Existen diversas técnicas para llevar a cabo esta extracción, siendo las
más comunes el análisis de componentes principales y el análisis de factores. El
análisis de componentes principales se utiliza a menudo cuando el objetivo es
reducir la dimensionalidad de los datos, mientras que el análisis de factores es
más adecuado para identicar las relaciones entre las variables subyacentes. La
elección de la técnica dependerá de los objetivos de la investigación y de la
naturaleza de los datos.
Después de la extracción de factores, se procede a la rotación de los
mismos para facilitar su interpretación. La rotación obtiene ser ortogonal, donde
los factores se mantienen independientes entre sí, o no ortogonal, que concede la
correlación entre factores. Las técnicas de rotación más utilizadas incluyen la
rotación varimax (ortogonal) y la rotación oblimin (no ortogonal). La elección de
la técnica de rotación dependerá de la naturaleza de los factores y de la
interpretación que se desee obtener. Una vez rotados, los factores se consiguen
interpretar a través de las cargas factoriales, que indican el grado de relación
entre cada variable y el factor correspondiente. Este proceso es crucial, ya que
concede a los investigadores nombrar y denir los factores en función de las
variables que más fuertemente se asocian con cada uno de ellos.
La metodología del análisis factorial exploratorio requiere una cuidadosa
consideración de la selección de variables, la técnica de extracción de factores y
el proceso de rotación e interpretación. Siguiendo estos pasos, los investigadores
consiguen obtener una comprensión más profunda de la estructura subyacente
50
en sus datos, lo que les concede avanzar en sus investigaciones con un sólido
respaldo empírico.
En el ámbito de la psicología, el AFE se utiliza frecuentemente para
comprender mejor las dimensiones latentes de constructos psicológicos. A saber,
en la evaluación de la personalidad, los investigadores consiguen aplicar el AFE
para determinar qué rasgos subyacen en un conjunto de ítems de un cuestionario
de personalidad. Esto concede simplicar la interpretación de los resultados y
mejorar la validez de las pruebas psicológicas. En esa misma nea, el AFE obtiene
ayudar a identicar patrones de comportamiento en poblaciones especícas,
facilitando la creación de intervenciones personalizadas basadas en las
características de los individuos (Lloret et al., 2014).
En las ciencias sociales, el AFE es fundamental para explorar la estructura
de variables complejas, como actitudes, percepciones y valores en grupos
sociales. Así, en un estudio sobre la satisfacción laboral, el AFE obtiene ayudar a
descomponer la satisfacción en dimensiones como el ambiente de trabajo, las
relaciones interpersonales y las recompensas económicas. Esta descomposición
concede a los investigadores entender mejor qué factores inuyen en la
satisfacción general y, a su vez, desarrollar estrategias para mejorar el bienestar
de los empleados. Por añadidura, el AFE se utiliza para validar escalas de
medición y garantizar que los instrumentos de recolección de datos sean ables
y relevantes para la población objeto de estudio.
En el ámbito del marketing y la investigación de mercados, el AFE es una
técnica esencial para segmentar consumidores y comprender sus preferencias. Al
aplicar el AFE a datos de encuestas sobre hábitos de compra, los investigadores
consiguen identicar grupos de consumidores con características y
comportamientos similares. Esto concede a las empresas diseñar estrategias de
marketing más efectivas, adaptando sus productos y servicios a las necesidades
51
especícas de cada segmento de mercado. Además, el AFE obtiene ser utilizado
para evaluar la percepción de marca y sus atributos, ayudando a las empresas a
posicionarse de manera más efectiva en un mercado competitivo.
El análisis factorial exploratorio se presenta como una metodología
versátil en la investigación experimental, aplicándose en diversas disciplinas
para desentrañar las complejidades de los datos y facilitar la interpretación de los
resultados. Su capacidad para identicar y organizar patrones en conjuntos de
datos grandes y multifacéticos lo convierte en una herramienta indispensable
para los investigadores contemporáneos. El análisis factorial exploratorio (AFE)
se ha consolidado como una herramienta fundamental en la investigación
experimental, permitiendo a los investigadores identicar y entender las
relaciones subyacentes entre variables.
A pesar de sus benecios, el análisis factorial exploratorio no está exento
de limitaciones, una de las principales críticas es que los resultados consiguen ser
sensibles a la elección de las variables iniciales y a los métodos de extracción y
rotación empleados. Incluso, el AFE asume que las relaciones entre las variables
son lineales, lo que obtiene no ser siempre el caso en situaciones del mundo real.
Por otro lado, la interpretación de los factores obtiene ser subjetiva, lo que obtiene
llevar a diferentes conclusiones dependiendo de la perspectiva del investigador.
Por estas razones, es crucial que los investigadores sean cautelosos al interpretar
los resultados y consideren complementar el AFE con otros métodos estadísticos,
como el análisis factorial conrmatorio, para validar sus hallazgos.
Con el avance de la tecnología y la disponibilidad de grandes volúmenes
de datos, el análisis factorial exploratorio tiene el potencial de evolucionar y
adaptarse a nuevas realidades. Se recomienda a los futuros investigadores que
integren herramientas de análisis de datos más sosticadas, como el aprendizaje
automático, para complementar el AFE. Esto permitirá no solo una mejor
52
identicación de patrones en los datos, sino también una validación más robusta
de los factores identicados.
Además, se sugiere la realización de estudios multidisciplinarios que
utilicen el AFE en combinación con métodos cualitativos, lo que podría
enriquecer la interpretación de los datos y presentar una visión más holística de
los fenómenos estudiados. En última instancia, seguir explorando y renando el
uso del análisis factorial exploratorio asegurará que continúe siendo una
herramienta valiosa en la investigación experimental del futuro.
3.2 Características relacionadas con el análisis factorial: Análisis de
correspondencias múltiples
El análisis de correspondencias múltiples (ACM) es una técnica estadística
utilizada para explorar y visualizar relaciones entre variables categóricas en un
conjunto de datos. Al proporcionar una representación gráca de las asociaciones
entre las y columnas de una tabla de contingencia, el ACM facilita la
comprensión de patrones y estructuras subyacentes en los datos (Alata et al.,
2025). Su propósito principal es ayudar a los investigadores a identicar y
analizar la relación entre múltiples categorías, permitiendo así una interpretación
más rica y matizada de los datos.
El análisis de correspondencias múltiples se obtiene denir como un
método multivariante que extiende el análisis de correspondencias simple,
permitiendo el análisis simultáneo de más de dos variables categóricas. Esto lo
convierte en una herramienta invaluable en la investigación social, donde los
datos suelen ser complejos y multidimensionales. Su principal propósito es
reducir la dimensionalidad de los datos y facilitar la visualización de las
relaciones entre las categorías, lo que a su vez concede a los investigadores
formular hipótesis y realizar inferencias signicativas.
53
El ACM fue introducido en la década de 1980 por el estadístico francés
Jean-Paul Benzécri, quien buscaba desarrollar métodos que permitieran el
análisis de datos cualitativos sin la necesidad de transformarlos a un formato
numérico. Desde su creación, el ACM ha evolucionado y se ha incorporado en
diversas disciplinas, incluyendo sociología, psicología, marketing y biología,
entre otras. Su capacidad para analizar datos categóricos ha propiciado su
popularidad, especialmente en un contexto en el que la interpretación de datos
complejos es cada vez más relevante.
El análisis de correspondencias múltiples se utiliza ampliamente en la
investigación social para explorar relaciones entre variables como opiniones,
actitudes, comportamientos y características demográcas. Así, los sociólogos
consiguen emplear el ACM para examinar cómo diferentes grupos demográcos
responden a encuestas sobre temas sociales, permitiendo la identicación de
patrones que podrían no ser evidentes mediante métodos estadísticos más
tradicionales. Asimismo, el ACM es útil en el análisis de datos de encuestas,
estudios de mercado y análisis de contenido, donde las variables categóricas son
la norma. Su versatilidad y capacidad para revelar conexiones ocultas en los
datos lo han convertido en una herramienta esencial para los investigadores
sociales contemporáneos.
Para comprender plenamente esta metodología, es esencial abordar sus
fundamentos teóricos, que abarcan desde conceptos básicos de estadística
multivariante hasta la interpretación de matrices y la comparación con otros
métodos estadísticos. La estadística multivariante se ocupa del análisis de datos
que involucran múltiples variables simultáneamente. A diferencia de las técnicas
univariantes, que analizan una sola variable a la vez, el camino multivariante
concede captar la complejidad de las interrelaciones entre diversas variables. En
54
el contexto del ACM, se trabaja principalmente con variables cualitativas, lo que
implica que cada variable obtiene tener múltiples categorías o niveles.
El ACM se basa en la idea de que la información contenida en las variables
obtiene ser resumida en un espacio de menor dimensión, facilitando la
identicación de patrones y relaciones. Para ello, se emplean técnicas de
reducción de dimensionalidad, que conceden representar las variables y sus
categorías en un plano gráco, donde se consiguen observar las similitudes y
diferencias entre ellas. Una de las herramientas centrales del análisis de
correspondencias múltiples es la matriz de correspondencias, que se construye a
partir de los datos categóricos. Esta matriz se organiza de tal manera que las las
representan las diferentes unidades de observación (en particular, individuos,
grupos, etc.) y las columnas representan las categorías de las variables. Así, cada
celda de la matriz contiene la frecuencia con la que una unidad de observación
pertenece a una categoría especíca.
La interpretación de la matriz de correspondencias es fundamental, ya que
concede identicar las relaciones entre las categorías de las variables y las
unidades de observación. A través del ACM, se consiguen calcular las
coordenadas de puntos que representan tanto las categorías como las
observaciones en un espacio reducido, lo que facilita la visualización de sus
relaciones. Esta perspectiva gráca ayuda a los investigadores a identicar
clústeres y tendencias que podrían no ser evidentes en un análisis univariante.
El análisis de correspondencias múltiples se distingue de otros métodos
estadísticos en varios aspectos. En primer lugar, mientras que otros enfoques,
como el análisis de varianza (ANOVA) o la regresión, se centran en variables
numéricas y requieren supuestos estrictos sobre la distribución de los datos, el
ACM está diseñado especícamente para manejar variables categóricas sin
necesidad de dichos supuestos (Lamfre et al., 2023). En suma, el ACM es
55
especialmente útil para la exploración de datos, ya que concede a los
investigadores obtener una visión general de las relaciones entre variables sin la
necesidad de formular hipótesis previas. Esto lo convierte en una herramienta
valiosa en las etapas iniciales de un estudio, donde se busca comprender las
dinámicas subyacentes en un conjunto de datos.
Los fundamentos teóricos del análisis de correspondencias múltiples
proporcionan un marco sólido para la exploración y visualización de relaciones
complejas entre variables categóricas, destacando su relevancia en la
investigación social y su capacidad para exponer una comprensión más profunda
de los datos. Para llevar a cabo un análisis de correspondencias múltiples, existen
diversas herramientas y software que facilitan el proceso. Algunas de las más
populares incluyen:
* R: Este es un entorno de programación ampliamente utilizado en estadísticas,
que cuenta con paquetes como “FactoMineR y ca que conceden realizar
análisis de correspondencias múltiples. R es especialmente valorado por su
exibilidad y capacidad para manejar grandes conjuntos de datos.
* Python: Al igual que R, Python es un lenguaje de programación que tiene
bibliotecas como “pandas” y “scikit-learn”, que consiguen ser utilizadas para
realizar análisis de correspondencias. Aunque no dispone de un paquete
especíco para ACM, se consiguen implementar métodos similares utilizando las
herramientas disponibles.
* SPSS: Este software es conocido en el ámbito de la investigación social y aporta
una opción para realizar análisis de correspondencias múltiples de manera
intuitiva a través de su interfaz gráca.
56
* SAS: Al igual que SPSS, SAS es una herramienta robusta en el análisis de datos
que incluye procedimientos para realizar ACM. Es muy utilizado en entornos
académicos y empresariales.
* Stata: Este software también concede realizar análisis de correspondencias y es
popular entre los investigadores sociales por su facilidad de uso y potentes
capacidades de análisis.
La implementación del análisis de correspondencias múltiples se obtiene
dividir en varios pasos clave:
* Recolección de datos: El primer paso consiste en reunir un conjunto de datos que
contenga variables categóricas. Es importante que los datos sean relevantes para
el fenómeno que se desea estudiar.
* Preparación de los datos: Antes de realizar el análisis, es crucial limpiar y
organizar los datos. Esto incluye manejar valores perdidos, codicar variables y,
si es necesario, transformar categorías.
* Construcción de la matriz de correspondencias: A partir de los datos categóricos, se
construye una matriz de correspondencias. Esta matriz reeja las frecuencias o
proporciones de las categorías cruzadas, y es fundamental para el análisis.
* Realización del análisis: Utilizando el software seleccionado, se ejecuta el análisis
de correspondencias múltiples, en este paso, se generan los ejes de
correspondencias que describen las dimensiones subyacentes en los datos.
* Interpretación de los resultados: Una vez realizados los cálculos, es necesario
interpretar los ejes y las representaciones grácas que se generan. Esto incluye
examinar la proximidad entre las categorías y cómo se agrupan en el espacio
multidimensional.
57
La interpretación de los resultados del análisis de correspondencias
múltiples es fundamental para extraer conclusiones valiosas. Los resultados
típicamente incluyen:
- Grácos de dispersión: Estos grácos muestran la posición de las categorías en
el espacio de los ejes de correspondencias. La proximidad entre puntos indica
una relación más fuerte entre las categorías representadas.
- Contribuciones a los ejes: Es importante analizar qué variables y categorías
contribuyen más a cada eje. Esto ayuda a entender qué dimensiones son s
relevantes en el análisis.
- Interpretación cualitativa: Por añadidura de los resultados cuantitativos, es
esencial realizar una interpretación cualitativa de los hallazgos, relacionándolos
con el contexto de la investigación.
La implementación del análisis de correspondencias múltiples implica una
serie de pasos que van desde la recolección de datos hasta la interpretación de
resultados, utilizando diversas herramientas disponibles para facilitar el proceso.
Con una correcta aplicación, el ACM obtiene prometer valiosos discernimientos
sobre la relación entre variables categóricas en diferentes contextos de
investigación.
El análisis de correspondencias múltiples (ACM) se ha consolidado como
una herramienta valiosa en el ámbito de la investigación social y en otras
disciplinas que requieren el análisis de datos categóricos. Entre los hallazgos más
destacados en investigación experimental, se encuentra la capacidad del ACM
para revelar patrones y relaciones ocultas en conjuntos de datos complejos,
facilitando la interpretación de información multidimensional. Este paradigma
concede a los investigadores no solo identicar asociaciones entre variables, sino
58
encima visualizar estas relaciones de manera intuitiva, lo que resulta en una
comprensión más profunda de los fenómenos estudiados.
A pesar de sus numerosas ventajas, el análisis de correspondencias
múltiples no está exento de retos y limitaciones, entre los principales panoramas
es la necesidad de un tamaño de muestra adecuado; un número insuciente de
observaciones obtiene llevar a resultados poco ables. Además, la interpretación
de los resultados obtiene ser subjetiva y depende en gran medida de la
experiencia del investigador. Todavía existe el riesgo de sobre interpretar las
relaciones encontradas, especialmente cuando se trabaja con datos altamente
dimensionales. Por último, el ACM requiere un conocimiento sólido de los
conceptos estadísticos subyacentes para evitar errores en la aplicación y la
interpretación.
El futuro del análisis de correspondencias múltiples parece prometedor,
en gran parte gracias a los avances en tecnología y la disponibilidad de grandes
volúmenes de datos. La integración del ACM con técnicas de aprendizaje
automático y minería de datos obtiene ampliar sus aplicaciones y mejorar su
capacidad predictiva. Además, el desarrollo de software más accesible y
amigable permitirá a un mayor número de investigadores aplicar el método en
sus estudios. La creciente atención hacia el análisis de datos visuales siempre
sugiere que la representación gráca de los resultados del ACM continuará
evolucionando, facilitando la comunicación de hallazgos a audiencias más
amplias. El análisis de correspondencias múltiples se perla como una
herramienta fundamental en la investigación contemporánea, con un potencial
signicativo para adaptarse y crecer en un entorno de datos en constante cambio.
59
3.3 Características relacionadas con el análisis factorial:
Agrupamiento univariante y de K-medias
El agrupamiento es una técnica fundamental en el análisis de datos que
concede identicar patrones y estructuras en conjuntos de datos. En el ámbito de
la estadística y el aprendizaje automático, el agrupamiento univariante y el
método de K-medias son dos métodos que juegan un papel crucial en la
exploración y comprensión de datos. El agrupamiento univariante se ajusta en el
análisis de una única variable, permitiendo a los investigadores identicar
características y tendencias especícas dentro de un conjunto de datos (Pham et
al., 2019). Este tratamiento es especialmente útil cuando se desea simplicar la
información y obtener una visión clara de la distribución de los datos en torno a
una variable concreta. A través de técnicas de visualización y resúmenes
estadísticos, el análisis univariante presenta herramientas valiosas para tomar
decisiones informadas basadas en datos.
Por otro lado, el método de K-medias es uno de los algoritmos de
agrupamiento más utilizados en la minería de datos. Este método concede
agrupar un conjunto de datos en K grupos distintos, donde cada grupo está
denido por la media de sus puntos de datos. A través de este método, los
analistas consiguen descubrir relaciones ocultas y segmentar datos de manera
efectiva, lo que resulta en información que obtiene ser aprovechada en diversas
aplicaciones, desde la segmentación de mercados hasta el análisis de patrones en
datos cientícos.
El agrupamiento univariante es una técnica fundamental en el análisis de
datos que se ajusta en la agrupación de observaciones basadas en una única
variable. Esta perspectiva concede a los analistas y cientícos de datos identicar
60
patrones, tendencias y características signicativas dentro de un conjunto de
datos, facilitando la toma de decisiones informadas.
El agrupamiento univariante se reere al proceso de clasicar datos en
grupos o "clusters" basándose en las similitudes que presentan en una sola
dimensión o variable. A diferencia del agrupamiento multivariante, que
considera múltiples variables simultáneamente, el univariante se agrupa en una
única característica, lo que simplica el análisis y concede una interpretación más
directa de los resultados (Catena et al., 2003). Para ilustrar, si se tiene un conjunto
de datos sobre las alturas de un grupo de personas, el análisis univariante podría
dividir a las personas en grupos como "bajas", "medianas" y "altas" basándose
únicamente en la variable de altura.
El análisis univariante es crucial en estadística, ya que proporciona una
visión inicial de los datos y ayuda a los investigadores a entender mejor la
naturaleza de la variable bajo estudio. Este tipo de análisis concede identicar
características clave como la tendencia central (media, mediana y moda), la
dispersión (rango, varianza y desviación estándar) y la forma de la distribución
(asimetría y curtosis). Al comprender estas características, los analistas consiguen
realizar inferencias más precisas y establecer hipótesis que consiguen ser
probadas en análisis posteriores, ya sean univariantes o multivariantes.
La visualización es una herramienta poderosa en el análisis univariante,
ya que concede a los investigadores representar grácamente los datos para
facilitar su interpretación. Existen varios métodos de visualización que son
especialmente útiles para el análisis univariante:
* Histogramas: Muestran la distribución de una variable continua dividiendo el
rango de datos en intervalos y contando la frecuencia de observaciones en cada
61
intervalo. Este método es útil para identicar la forma de la distribución y
detectar la presencia de valores atípicos.
* Diagramas de caja (boxplots): Proporcionan una representación visual que resume
la mediana, cuartiles y posibles valores atípicos de una variable. Este tipo de
gráco es efectivo para comparar la dispersión y la asimetría de diferentes grupos
de datos.
* Grácos de densidad: Son una alternativa suave a los histogramas y muestran la
distribución de probabilidad de una variable continua. Estos grácos son útiles
para visualizar la forma de la distribución sin la rigidez que obtiene presentar un
histograma.
* Grácos de barras: Para variables categóricas, son ideales para mostrar la
frecuencia de cada categoría, permitiendo visualizar de manera clara y concisa
las diferencias entre ellas.
Estos métodos de visualización no solo enriquecen el análisis univariante,
sino que también facilitan la comunicación de los resultados a un público más
amplio, ayudando a transmitir hallazgos clave de manera efectiva. El
agrupamiento univariante es una herramienta esencial que sienta las bases para
un análisis más complejo y proporciona una comprensión sólida de los datos
antes de aplicar técnicas más avanzadas, como el agrupamiento K-medias. El
método de K-medias es uno de los algoritmos más utilizados en el campo del
análisis de datos para realizar agrupamientos. Este punto de vista se basa en la
partición de un conjunto de datos en K grupos, donde cada grupo se dene a
través de la media de sus elementos, de ahí su nombre.
El algoritmo K-medias es un método de agrupamiento que busca dividir
un conjunto de datos en K clústeres o grupos, donde K es un número predenido
por el usuario. La idea principal detrás de este método es que los datos dentro de
62
cada clúster son más similares entre sí que con los datos de otros clústeres. Para
ello, el algoritmo asigna cada punto de datos al clúster cuya media (centroide)
sea más cercana, y esta media se recalcula iterativamente a medida que los puntos
son reagrupados. El proceso del algoritmo K-medias se obtiene desglosar en los
siguientes pasos:
* Selección de K: Determinar el número de clústeres K que se desea identicar en
los datos. Esta elección obtiene basarse en el conocimiento previo del dominio o
en métodos como el "codo", que ayuda a identicar un número óptimo de
clústeres.
* Inicialización de centroides: Seleccionar K puntos aleatorios del conjunto de datos
como los centroides iniciales de cada clúster.
* Asignación de clústeres: Asignar cada punto de datos al clúster cuyo centroide
esté más cercano, generalmente utilizando la distancia euclidiana.
* Re-cálculo de centroides: Una vez que todos los puntos han sido asignados a un
clúster, recalcular los centroides de los clústeres basándose en las posiciones
medias de los puntos que pertenecen a cada uno.
* Iteración: Repetir los pasos de asignación de clústeres y recalculo de centroides
hasta que los centroides no cambien signicativamente entre iteraciones, o hasta
que se alcance un número máximo de iteraciones predeterminado.
El método K-medias presenta varias ventajas que lo hacen atractivo para
su uso en el análisis de datos:
- Simplicidad: Es fácil de entender e implementar, lo que lo convierte en una
opción popular para principiantes en análisis de datos.
63
- Eciencia: El algoritmo es relativamente rápido, especialmente en comparación
con otros métodos de agrupamiento, lo que concede su aplicación en conjuntos
de datos grandes.
- Escalabilidad: K-medias se adapta bien a grandes volúmenes de datos, siempre
que se elija un valor de K adecuado.
Empero, también tiene sus desventajas:
- Elección de K: La selección del número adecuado de clústeres obtiene ser
subjetiva y, en muchos casos, la elección incorrecta obtiene llevar a resultados
poco satisfactorios.
- Sensibilidad a la inicialización: Los resultados consiguen depender de la
elección inicial de los centroides, lo que obtiene llevar a soluciones subóptimas.
- Asunción de formas esféricas: K-medias asume que los clústeres son esféricos
y de tamaño similar, lo que no siempre se ajusta a la realidad de los datos.
El método K-medias es una herramienta poderosa para el agrupamiento
de datos, aunque su uso efectivo requiere atención a la selección de parámetros
y a las características del conjunto de datos en cuestión, una de las aplicaciones
más comunes del agrupamiento K-medias es la segmentación de mercados
(Pham et al., 2019). Las empresas utilizan esta técnica para dividir a su base de
clientes en grupos homogéneos, facilitando la creación de estrategias de
marketing más efectivas.
Al identicar características comunes entre los clientes, como edad,
ingresos o preferencias de compra, las empresas consiguen personalizar sus
ofertas y campañas publicitarias, lo que obtiene aumentar la tasa de conversión
y mejorar la satisfacción del cliente. En concreto, una tienda de ropa podría usar
K-medias para agrupar a sus clientes en función de sus hábitos de compra,
64
permitiéndole aportar promociones especícas que se alineen con los intereses
de cada grupo.
En el ámbito cientíco, el agrupamiento K-medias se utiliza para analizar
grandes volúmenes de datos experimentales. A saber, en biología, los
investigadores consiguen emplear esta técnica para clasicar diferentes especies
de plantas o animales basándose en características morfológicas o genéticas. Esta
clasicación obtiene ayudar a identicar patrones evolutivos o a estudiar la
biodiversidad en un ecosistema. Asimismo, en el análisis de datos médicos, el
agrupamiento K-medias obtiene ser útil para segmentar pacientes en grupos de
riesgo según características clínicas, lo que facilita el desarrollo de tratamientos
más personalizados.
Las redes sociales y el marketing digital han adoptado el agrupamiento K-
medias para comprender mejor el comportamiento de los usuarios. Al agrupar a
los usuarios según sus interacciones, intereses y demografía, las plataformas
consiguen presentar contenido más relevante y publicidades dirigidas. Para
ilustrar, un sitio web de comercio electrónico podría utilizar K-medias para
identicar a los usuarios que comparten intereses similares, permitiendo la
creación de campañas de marketing más efectivas. Incluso, las empresas
consiguen analizar el rendimiento de sus publicaciones en redes sociales,
agrupando los resultados por tipo de contenido o audiencia, lo que les concede
ajustar sus estrategias de contenido para maximizar el engagement.
El agrupamiento K-medias se presenta como una herramienta poderosa
en diversas disciplinas, desde el marketing hasta la investigación cientíca. Su
capacidad para revelar patrones ocultos en los datos concede a los profesionales
tomar decisiones más informadas y efectivas en sus respectivas áreas. Por otro
lado, el algoritmo de K-medias se destaca como uno de los métodos más
utilizados para el agrupamiento multivariante, gracias a su simplicidad y ecacia
65
en la segmentación de datos en grupos homogéneos (Rodríguez, 2022). A través
de sus pasos bien denidos, K-medias concede a los investigadores y
profesionales clasicar datos en función de características compartidas, lo que
resulta esencial en diversas aplicaciones, desde la segmentación de mercados
hasta el análisis de patrones en investigaciones cientícas y en el ámbito del
marketing digital.
Sin embargo, es crucial tener en cuenta tanto las ventajas como las
desventajas de cada método; mientras que el agrupamiento univariante aporta
una visión directa y fácil de interpretar, el K-medias requiere una cuidadosa
elección del mero de grupos (K) y obtiene verse afectado por la presencia de
valores atípicos o la forma de los datos. Por lo tanto, la selección del método
adecuado dependerá del contexto y de los objetivos especícos del análisis. Tanto
el agrupamiento univariante como el método de K-medias son herramientas
valiosas en el arsenal del analista de datos. Su correcta aplicación obtiene
proporcionar aportes signicativos y contribuir al avance del conocimiento en
múltiples disciplinas.
66
Capítulo IV
Análisis Factorial Conrmatorio: Fundamentos,
Aplicaciones y Paradigmas en la Investigación
Experimental
El análisis factorial conrmatorio (AFC) es una técnica estadística esencial
que concede a los investigadores evaluar la estructura de relaciones entre
variables observadas y factores subyacentes. A diferencia del análisis factorial
exploratorio, que busca identicar patrones en los datos sin hipótesis previas, el
AFC comienza con un modelo teórico predenido que se desea validar. Este
tratamiento es fundamental para conrmar si los datos observados se ajustan a
la estructura esperada, lo cual es crucial para validar teorías en diversas
disciplinas.
La importancia del análisis factorial conrmatorio en la investigación
experimental radica en su capacidad para proporcionar una comprensión más
profunda de los constructos subyacentes. En campos como la psicología, la
educación y las ciencias sociales, el AFC se utiliza para comprobar la validez de
escalas de medición y teorías psicológicas. Al proporcionar evidencia empírica
sobre cómo se relacionan las variables, el AFC ayuda a los investigadores a tomar
decisiones informadas y a desarrollar modelos más precisos.
4.1 Teoría detrás del análisis factorial conrmatorio
El AFC comienza con una hipótesis especíca sobre la relación entre las
variables observadas y los factores latentes, esta hipótesis se modela a través de
un sistema de ecuaciones que describe cómo se espera que las variables se
67
relacionen con los factores. El objetivo del AFC es evaluar la adecuación del
modelo propuesto a los datos observados, permitiendo así validar teorías
existentes o construir nuevas. Una de las principales diferencias entre el AFC y el
AFE radica en su paradigma y propósito.
Para Lloret et al. (2014), mientras que el AFE es un método inductivo
utilizado para identicar patrones en un conjunto de datos sin suposiciones
previas, el AFC es un método deductivo que se utiliza para conrmar o refutar
un modelo teórico previamente denido. Esto signica que en el AFC, el
investigador debe especicar, antes de realizar el análisis, el número de factores
y las relaciones esperadas entre estos y las variables observadas. El análisis
factorial conrmatorio se basa en varios supuestos fundamentales que deben ser
vericados para garantizar la validez de los resultados. Algunos de estos
supuestos incluyen:
* Normalidad multivariada: Se asume que las variables observadas siguen una
distribución normal multivariada.
* Linealidad: Se supone que las relaciones entre las variables observadas y los
factores latentes son lineales.
* Independencia de errores: Los errores de medición se espera que sean
independientes entre sí.
* Suciencia de la muestra: Para que el AFC sea conable, se requiere un tamaño
de muestra adecuado que permita una estimación precisa de los parámetros del
modelo.
Estos supuestos son cruciales para la correcta interpretación de los
resultados obtenidos mediante el análisis factorial conrmatorio, y su
vericación es una parte esencial del proceso de análisis. En psicología, el AFC es
ampliamente utilizado para validar escalas de medición y cuestionarios que
68
evalúan constructos psicológicos. Así, un investigador obtiene utilizar el AFC
para conrmar que un conjunto de ítems en un cuestionario de ansiedad
realmente mide el constructo de ansiedad y no otros factores como la depresión
o el estrés. Esto es crucial, ya que la precisión en la medición de variables
psicológicas obtiene inuir en la interpretación de los resultados y en las
intervenciones terapéuticas. En las ciencias sociales, el AFC concede a los
investigadores establecer la estructura subyacente de variables complejas, como
las actitudes hacia temas sociales o políticos.
En el ámbito del marketing, el AFC se utiliza para validar modelos que
describen el comportamiento del consumidor. Así, una empresa obtiene
desarrollar un modelo que explique la satisfacción del cliente a partir de diversas
dimensiones, como la calidad del producto y el servicio al cliente. Mediante el
AFC, los investigadores consiguen conrmar que estas dimensiones se agrupan
como se esperaba y que los ítems utilizados en las encuestas reejan
adecuadamente cada una de ellas. Esto no solo ayuda a las empresas a
comprender mejor a sus clientes, sino que todavía concede optimizar sus
estrategias de marketing.
En el campo de la educación, el AFC se aplica para validar instrumentos
de evaluación que miden el rendimiento académico o las competencias de los
estudiantes. Para ilustrar, los investigadores consiguen utilizar el AFC para
conrmar que un test de matemáticas evalúa efectivamente las habilidades
numéricas y no otros aspectos como la lectura o la escritura. Asimismo, se obtiene
utilizar para desarrollar y validar escalas que midan factores como la motivación
o el compromiso de los estudiantes hacia el aprendizaje. El análisis factorial
conrmatorio se aplica de manera efectiva en psicología, marketing y educación,
proporcionando una metodología robusta para validar modelos teóricos y
escalas de medición.
69
El AFC es una herramienta poderosa, pero no está exenta de limitaciones,
una de las principales restricciones es que los modelos consiguen ser complejos
y requieren un gran número de datos para ser estimados de manera efectiva. En
situaciones donde el tamaño de la muestra es reducido, los resultados consiguen
ser poco conables. Además, la especicación del modelo es crítica; cualquier
error en la formulación de las relaciones entre las variables latentes obtiene
comprometer la validez del modelo.
El ajuste del modelo es otro aspecto crucial que los investigadores deben
considerar; existen múltiples índices que conceden evaluar el ajuste del modelo,
como el índice de ajuste comparativo (CFI) y la raíz del error cuadrático medio
de aproximación (RMSEA). Sin embargo, interpretar estos índices obtiene ser
complicado. Un modelo obtiene mostrar un ajuste aceptable, pero eso no
garantiza que sea el más adecuado para los datos. Por añadidura, el sobreajuste
es un riesgo, donde un modelo se ajusta demasiado a los datos de la muestra y
pierde su capacidad de generalización a otras muestras.
Las interpretaciones erróneas de los resultados representan un desafío
signicativo en el uso del AFC, es decir, los investigadores consiguen asumir que
una relación estadísticamente signicativa implica causalidad, lo cual no es
necesariamente cierto (Martínez, 2021). Es vital que mantengan un punto de vista
crítico y reexivo durante todo el proceso, considerando no solo los resultados
obtenidos, sino igualmente el contexto en el que se producen. El AFC se presenta
como una herramienta esencial para investigadores que buscan validar hipótesis
y teorías especícas. Su capacidad para proporcionar un marco estructural claro
y cuanticable lo convierte en un recurso valioso en el análisis de datos
complejos.
Para los investigadores que deseen implementar el AFC, es importante
asegurar que los datos recopilados cumplan con los supuestos del modelo. De
70
igual modo se recomienda realizar pruebas de robustez y sensibilidad. Por
último, es fundamental seguir formaciones y actualizaciones en las herramientas
estadísticas y en las mejores prácticas del AFC, dado que el campo de la
investigación está en constante evolución. De este modo, los investigadores no
solo podrán mejorar la calidad de sus estudios, sino siempre contribuir al avance
del conocimiento en sus respectivas áreas.
4.2 Características relacionadas con el análisis factorial: Modelos de
mezcla gaussiana
Los modelos de mezcla gaussiana (MMG) son herramientas estadísticas
poderosas que conceden modelar distribuciones de datos complejas mediante la
combinación de múltiples distribuciones gaussianas. Estos modelos son
especialmente útiles en situaciones donde los datos presentan heterogeneidad o
están compuestos por subgrupos distintos que no consiguen ser adecuadamente
descritos por una sola distribución normal (Deisenroth et al., 2024). A través de
la mezcla de varias gaussianas, los MMG consiguen capturar la diversidad en los
datos y proporcionar una representación más rica y exible.
Un modelo de mezcla gaussiana es una representación probabilística que
asume que los datos son generados por una combinación de varias distribuciones
gaussianas, cada una con sus propios parámetros (media y varianza). Cada
componente gaussiana en la mezcla se pondera por un parámetro de mezcla, que
representa la proporción de datos que provienen de esa distribución especíca.
Matemáticamente, se obtiene expresar como:
\[ p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k) \]
donde \( K \) es el número de componentes en la mezcla, \( \pi_k \) son los
pesos de mezcla, \( \mu_k \) son las medias de cada componente y \( \Sigma_k
\) son las matrices de covarianza. Este enfoque concede que los MMG sean muy
71
versátiles, adaptándose a una amplia variedad de formas de distribución en los
datos.
La idea de usar mezclas de distribuciones para modelar datos no es nueva.
Los primeros trabajos que sentaron las bases para los modelos de mezcla
gaussiana se remontan al siglo XX, con contribuciones signicativas de
estadísticos como Karl Pearson y Ronald Fisher. Pero, fue en la década de 1980
cuando los MMG comenzaron a ganar popularidad, gracias al desarrollo del
algoritmo de Expectativa-Maximización (EM), que concede la estimación
eciente de los parámetros del modelo. Desde entonces, los modelos de mezcla
gaussiana han evolucionado, incorporando sosticaciones como la selección
automática de modelos, el uso de técnicas bayesianas y la adaptación a datos de
alta dimensión. Su aplicación se ha expandido a diversas áreas, incluyendo la
bioinformática, el procesamiento de imágenes y el análisis de datos en redes
sociales.
Los modelos de mezcla gaussiana tienen una amplia gama de aplicaciones
en el análisis de datos. Una de las más comunes es la segmentación de datos,
donde se utilizan para identicar grupos o clústeres dentro de un conjunto de
datos. En particular, en marketing, los MMG consiguen ayudar a segmentar a los
clientes en diferentes grupos basados en sus comportamientos de compra.
Además, estos modelos son utilizados en el reconocimiento de patrones, donde
ayudan a clasicar datos en categorías predenidas. En el ámbito de la
bioestadística, los MMG consiguen ser utilizados para modelar la variabilidad en
datos genéticos, permitiendo así la identicación de subpoblaciones con
características especícas.
El uso de modelos de mezcla gaussiana encima se extiende a la detección
de anomalías, donde se consiguen identicar observaciones que no se ajustan a
las distribuciones esperadas, lo que es crucial en aplicaciones como la detección
72
de fraudes o el monitoreo de sistemas de salud. Los modelos de mezcla gaussiana
son herramientas versátiles y potentes en el análisis de datos, capaces de
proporcionar información valiosa en una variedad de contextos. Su capacidad
para modelar la complejidad y la heterogeneidad de los datos los convierte en
una perspectiva fundamental en la estadística moderna y el aprendizaje
automático.
Los modelos de mezcla gaussiana (GMM, por sus siglas en inglés) son
herramientas estadísticamente robustas que conceden modelar datos
provenientes de ltiples distribuciones gaussianas. Para comprender
plenamente su funcionamiento, es esencial profundizar en los fundamentos
matemáticos que los sustentan. La distribución gaussiana, también conocida
como distribución normal, es una de las distribuciones más importantes en
estadística debido a su aparición frecuente en fenómenos naturales y sociales. Se
caracteriza por su forma de campana, determinada por dos parámetros: la media
(\( \mu \)) y la desviación estándar (\( \sigma \)). La función de densidad de
probabilidad (pdf) de una variable aleatoria continua \( X \) que sigue una
distribución normal es:
\[
f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
\]
Los GMM se construyen como combinaciones de múltiples distribuciones
gaussianas. Cada componente en el modelo tiene su propia media y desviación
estándar, y se pondera por un coeciente de mezcla, que representa la
probabilidad a priori de que un dato pertenezca a esa componente especíca. La
estimación de parámetros en los modelos de mezcla gaussiana es fundamental
para ajustar el modelo a los datos observados. Cada componente del GMM está
73
denida por parámetros que incluyen la media (\( \mu \)), la matriz de
covarianza (\( \Sigma \)) y los pesos (\( \pi \)) que representan la proporción
de cada componente en la mezcla. La suma de los pesos debe ser igual a uno:
\[
\sum_{k=1}^{K} \pi_k = 1
\]
Donde \( K \) es el número total de componentes en el modelo. La
estimación de estos parámetros se realiza comúnmente utilizando el algoritmo
de Expectativa-Maximización (EM), que es un procedimiento iterativo que
alterna entre dos pasos: el paso de expectativa (E) y el paso de maximización (M).
El algoritmo EM es fundamental en la estimación de parámetros de los GMM. El
proceso se obtiene resumir en los siguientes pasos:
* Inicialización: Se eligen valores iniciales para los parámetros de las gaussianas
(medias, covarianzas y pesos).
* Paso de expectativa (E): Se calcula la probabilidad de que cada dato pertenezca a
cada uno de los componentes gaussianos, utilizando la función de densidad de
cada componente. Esto genera una "responsabilidad" que indica la probabilidad
de que un punto de datos provenga de cada componente.
* Paso de maximización (M): Con base en las responsabilidades calculadas en el
paso anterior, se actualizan los parámetros del modelo. Esto implica recalcular
las medias, las covarianzas y los pesos de las gaussianas para maximizar la
verosimilitud del modelo dado el conjunto de datos.
* Iteración: Los pasos E y M se repiten hasta que los cambios en los parámetros
sean sucientemente pequeños, indicando que se ha alcanzado la convergencia.
74
Para Cárdenas (2021), el algoritmo EM es especialmente ecaz en
situaciones donde los datos contienen información oculta o faltante, lo que lo
convierte en una herramienta invaluable en el análisis de datos complejos. Los
fundamentos matemáticos de los modelos de mezcla gaussiana proporcionan
una base sólida para la comprensión y la implementación de estos modelos en
diversas aplicaciones. La combinación de la teoría de distribuciones gaussianas,
la estimación de parámetros y el algoritmo EM concede a los investigadores y
analistas de datos modelar de manera efectiva fenómenos complejos en múltiples
dominios. Existen diversas librerías y software que facilitan la implementación
de modelos de mezcla gaussiana. Algunas de las más destacadas son:
* Scikit-learn: Esta librería de Python es ampliamente utilizada en el aprendizaje
automático y expone una implementación robusta de GMM a través de la clase
“GaussianMixture”. Scikit-learn proporciona funcionalidades para ajustar el
modelo, predecir etiquetas de componentes y calcular probabilidades de
pertenencia.
* TensorFlow y PyTorch: Ambas son plataformas de aprendizaje profundo que
conceden la implementación de GMM mediante la creación de modelos
personalizados. Aunque no incluyen GMM de manera directa, los usuarios
consiguen construir sus propias arquitecturas utilizando las potentes
capacidades de estas bibliotecas.
* R y la Librería mclust: Para quienes utilizan R, la librería “mclust” es una opción
popular que presenta un tratamiento fácil para ajustar modelos de mezcla
gaussiana. Esta librería no solo concede ajustar GMM, sino que igualmente
proporciona herramientas para la selección de modelos y la validación.
75
* MATLAB: Este software de matemáticas y cálculo numérico también posee
funciones integradas para trabajar con modelos de mezcla gaussiana, lo que
concede a los investigadores aplicar GMM de manera eciente en sus análisis.
Para ilustrar la implementación de modelos de mezcla gaussiana,
consideremos un ejemplo simple utilizando Scikit-learn en Python. Supongamos
que tenemos un conjunto de datos bidimensional que queremos agrupar en dos
componentes gaussianos:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixtur
Generar datos sintéticos
np.random.seed(0)
n_samples = 500
X = np.vstack([
np.random.normal(loc=-3, scale=1, size=(n_samples//2, 2)),
np.random.normal(loc=3, scale=1, size=(n_samples//2, 2))
])
Ajustar el modelo de mezcla gaussiana
gmm = GaussianMixture(n_components=2)
gmm.t(X)
Predecir la etiqueta de cada punto
labels = gmm.predict(X)
76
Visualizar los resultados
plt.scaer(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=30)
plt.title('Modelos de Mezcla Gaussiana')
plt.xlabel('Dimensión 1')
plt.ylabel('Dimensión 2')
plt.show()
En este ejemplo, generamos un conjunto de datos que consta de dos
distribuciones gaussianas y ajustamos un modelo de mezcla gaussiana a los
datos. Luego, visualizamos los resultados, donde cada color representa una de
las distribuciones gaussianas identicadas por el modelo. La evaluación y
validación de modelos de mezcla gaussiana son cruciales para garantizar que el
modelo se ajuste adecuadamente a los datos. Algunas de las métricas y técnicas
utilizadas incluyen:
* Criterio de Información de Akaike (AIC) y Criterio de Información Bayesiano (BIC):
Estas son métricas utilizadas para la selección de modelos que penalizan la
complejidad del modelo. Un AIC o BIC más bajo indica un mejor ajuste del
modelo.
* Validación Cruzada: Esta técnica implica dividir el conjunto de datos en múltiples
subconjuntos para evaluar el rendimiento del modelo. Se ajusta el modelo a los
datos de entrenamiento y se evalúa su rendimiento en los datos de prueba.
* Visualización: La visualización de los resultados obtiene proporcionar
información intuitiva sobre el ajuste del modelo. Grácas de dispersión,
histogramas y grácos de contorno consiguen ser útiles para observar cómo se
distribuyen los datos en relación con las componentes gaussianas.
77
La implementación de modelos de mezcla gaussiana es accesible gracias a
las diversas herramientas y librerías disponibles; estos modelos no solo son
potentes para el análisis de datos, sino que también requieren una evaluación
cuidadosa para garantizar que se ajuste adecuadamente a los datos que
representan. Estos modelos, que conceden representar distribuciones complejas
a través de la combinación de múltiples distribuciones gaussianas, han
demostrado ser herramientas poderosas en campos como la estadística, el
aprendizaje automático y el procesamiento de señales (Amat, 2020).
Hemos discutido los fundamentos matemáticos que sustentan estos
modelos, centrándonos en las propiedades de las distribuciones gaussianas, la
estimación de parámetros y el algoritmo de Expectativa-Maximización (EM), que
es crucial para la implementación efectiva de estos modelos. En suma, hemos
revisado las herramientas y librerías disponibles para la implementación de
modelos de mezcla gaussiana, proporcionando modelos prácticos que ilustran su
uso en situaciones del mundo real. Por último, hemos analizado la importancia
de la evaluación y validación de modelos para garantizar la abilidad de los
resultados obtenidos.
A pesar de sus muchas ventajas, los modelos de mezcla gaussiana siempre
enfrentan varios desafíos que requieren atención en la investigación actual. Entre
los principales problemas es la sensibilidad a los valores atípicos, que consiguen
distorsionar signicativamente los resultados. Además, la selección del número
adecuado de componentes en el modelo es a menudo un dilema, ya que un
número insuciente obtiene llevar a un ajuste, mientras que un número excesivo
obtiene causar un sobreajuste. El futuro de los modelos de mezcla gaussiana
parece prometedor, con varias tendencias emergentes que podrían ampliar su
aplicabilidad y ecacia. Uno de los caminos más interesantes es la integración de
técnicas de aprendizaje profundo con modelos de mezcla gaussiana, lo que
78
podría permitir la captura de patrones más complejos en los datos. Esta
combinación podría mejorar signicativamente la capacidad de los modelos para
manejar datos no lineales y de alta dimensionalidad.
Incluso, la aplicación de modelos de mezcla gaussiana en áreas
emergentes como la inteligencia articial explicativa y el análisis de datos
masivos (big data) está ganando atención. Los modelos de mezcla gaussiana son
herramientas versátiles y poderosas en el análisis de datos, pero su desarrollo y
aplicación efectiva aún enfrenta retos. Ahora bien, las tendencias actuales y
futuras sugieren que estos modelos seguirán evolucionando, ofreciendo nuevas
oportunidades para el análisis y la comprensión de datos en un mundo cada vez
más complejo.
4.3 Características relacionadas con el análisis factorial:
Agrupamiento jerárquico aglomerativo y escalamiento
multidimensional
En la era de la información, el análisis de datos se ha convertido en una
herramienta esencial para la toma de decisiones en múltiples disciplinas. Con la
creciente cantidad de datos disponibles, es crucial contar con métodos efectivos
para extraer información valiosa y patrones ocultos. Dos de las técnicas s
utilizadas en este contexto son el agrupamiento jerárquico aglomerativo y el
escalamiento multidimensional. El agrupamiento jerárquico aglomerativo es un
método que concede organizar un conjunto de objetos o datos en una estructura
jerárquica, facilitando la identicación de grupos o clústeres similares. Por su
parte, el escalamiento multidimensional se ajusta en representar la similitud o
disimilitud entre los objetos en un espacio de menor dimensión, lo que concede
visualizar patrones y relaciones de manera más intuitiva.
79
El agrupamiento jerárquico aglomerativo (AJA) es una técnica de análisis
de datos que se utiliza para agrupar un conjunto de objetos en una estructura
jerárquica. Este método comienza con cada objeto considerado como un clúster
individual y, a medida que avanza el proceso, los clústeres se combinan de
manera sucesiva con base en una medida de similitud o distancia (Murtagh y
Legendre, 2014). El resultado es un dendrograma, una representación gráca que
muestra cómo se agrupan los objetos y a qué nivel de similitud se unen. Los
criterios de agrupamiento consiguen variar, ya sea mediante la distancia
euclidiana, la distancia de Manhaan, o utilizando métodos especícos como el
método de enlace simple o el método de Ward.
El escalamiento multidimensional (EMD) es una técnica estadística
utilizada para representar datos de alta dimensión en un espacio de menor
dimensión, generalmente en dos o tres dimensiones. El objetivo principal del
EMD es facilitar la visualización de las relaciones entre los objetos en un conjunto
de datos, preservando al máximo las distancias entre ellos. Utiliza matrices de
similitud o disimilitud para calcular la representación espacial. Existen diferentes
tipos de escalamiento, como el escalamiento clásico y el escalamiento
multidimensional no métrico, cada uno con sus propias características y
paradigmas para la representación de datos.
En sí, el agrupamiento jerárquico aglomerativo y el escalamiento
multidimensional son métodos complementarios en el análisis de datos, tienen
objetivos y métodos diferentes. Mientras que el AJA se ajusta en la clasicación y
agrupamiento de objetos en función de sus características, el EMD está orientado
a la visualización y la representación de las relaciones de proximidad entre ellos.
En términos de interpretación, el AJA concede identicar grupos heterogéneos
dentro de un conjunto de datos, mientras que el EMD facilita la observación de
patrones y tendencias que consiguen no ser evidentes en espacios de alta
80
dimensión. Ambos métodos son esenciales para obtener una comprensión más
profunda de la estructura de los datos y se utilizan en conjunto en numerosos
estudios analíticos.
En biología y genética, el agrupamiento jerárquico aglomerativo es
frecuentemente utilizado para analizar datos de expresión génica y para la
clasicación de especies. Los investigadores consiguen agrupar genes con
patrones de expresión similares, lo que concede identicar grupos de genes que
podrían estar involucrados en procesos biológicos especícos. A saber, en
estudios de microarreglos, este método ayuda a identicar subtipos de cáncer al
agrupar muestras de tejido según sus perles de expresión génica. El
escalamiento multidimensional, por su parte, se utiliza para visualizar relaciones
complejas entre organismos o genes en un espacio reducido, facilitando la
interpretación de datos multidimensionales y ayudando a identicar patrones
ocultos en la información genética.
En el ámbito del marketing, el agrupamiento jerárquico aglomerativo es
esencial para la segmentación de clientes. Los analistas consiguen agrupar a los
consumidores en función de sus comportamientos de compra, preferencias y
características demográcas, lo que concede a las empresas personalizar sus
estrategias de marketing. Esta segmentación ayuda a desarrollar campañas más
efectivas y a optimizar la asignación de recursos. El escalamiento
multidimensional igualmente se aplica en marketing, ya que concede visualizar
la percepción de los clientes sobre diferentes productos o marcas en un espacio
de características. Esto ayuda a las empresas a comprender mejor cómo se
posicionan en la mente del consumidor y a identicar oportunidades para
mejorar su oferta.
En las ciencias sociales, ambos métodos son utilizados para analizar datos
complejos y extraer percepciones signicativas. El agrupamiento jerárquico
81
aglomerativo obtiene ser empleado para clasicar grupos sociales o
comunidades según características socioeconómicas, comportamientos o
actitudes, permitiendo a los investigadores identicar patrones y dinámicas
sociales. El escalamiento multidimensional, por otro lado, se utiliza para
representar visualmente las relaciones entre variables sociales, facilitando la
comprensión de fenómenos como la cohesión grupal o la percepción de
conictos. Estos métodos ayudan a los cientícos sociales a formular hipótesis y
a realizar análisis más profundos sobre la interacción humana y la estructura
social.
Para López et al. (2021), tanto el agrupamiento jerárquico aglomerativo
como el escalamiento multidimensional tienen aplicaciones versátiles en diversas
disciplinas, permitiendo a los investigadores y profesionales analizar datos
complejos y descubrir patrones signicativos que de otro modo podrían pasar
desapercibidos. El análisis de datos es una disciplina en constante evolución, y la
elección del método adecuado es fundamental para obtener resultados
signicativos y útiles. En este sentido, tanto el agrupamiento jerárquico
aglomerativo como el escalamiento multidimensional ofrecen ventajas y
desventajas que deben ser consideradas al momento de aplicarlos.
* Interpretación intuitiva: Una de las principales ventajas del agrupamiento
jerárquico aglomerativo es su facilidad de interpretación. La representación en
forma de dendrograma concede visualizar claramente cómo se forman los
grupos, facilitando la comprensión de la estructura de los datos.
* Flexibilidad: Este método no requiere que el número de grupos sea especicado
de antemano, lo que concede una mayor exploración de la estructura de los datos.
Los analistas consiguen decidir el número de clústeres a partir de la visualización
del dendrograma.
82
* Adaptabilidad: Es aplicable a diferentes tipos de datos y métricas de distancia, lo
que lo convierte en una herramienta versátil en diversas áreas de estudio, desde
la biología hasta la sociología.
* Identicación de patrones complejos: La capacidad de identicar grupos jerárquicos
concede descubrir patrones complejos en conjuntos de datos que, de otro modo,
podrían pasar desapercibidos.
Al elegir entre el agrupamiento jerárquico aglomerativo y el escalamiento
multidimensional, es crucial considerar el objetivo del análisis, la naturaleza de
los datos y la audiencia a la que se destinarán los resultados. Si se busca una
interpretación clara y se concede la exploración de la estructura de los datos, el
agrupamiento jerárquico obtiene ser la mejor opción (Rodríguez, 2022). Por otro
lado, si se requiere una representación en un espacio de menor dimensión y se
cuenta con un conjunto de datos más complejo, el escalamiento multidimensional
obtiene ser más adecuado.
Tanto el agrupamiento jerárquico aglomerativo como el escalamiento
multidimensional presentan un conjunto de ventajas y desventajas que deben ser
cuidadosamente evaluadas. La elección del método correcto no solo inuye en la
calidad del análisis, sino encima en la relevancia y aplicabilidad de los resultados
obtenidos.
En el ámbito del análisis de datos, tanto el agrupamiento jerárquico
aglomerativo como el escalamiento multidimensional se han consolidado como
herramientas fundamentales para la organización y comprensión de información
compleja. El agrupamiento jerárquico aglomerativo se destaca por su capacidad
para revelar estructuras inherentes en los datos a través de la creación de
dendrogramas, facilitando la visualización y comprensión de las relaciones entre
los elementos agrupados. Su tratamiento jerárquico concede una exibilidad
83
única al permitir a los investigadores elegir el número de clústeres que se ajusten
a sus necesidades especícas.
Por otro lado, el escalamiento multidimensional muestra una perspectiva
complementaria al permitir la representación visual de datos de alta dimensión
en un espacio de menor dimensión. Esto resulta especialmente útil cuando se
busca interpretar y comunicar patrones complejos de manera más accesible. No
obstante, su dependencia de la elección de la distancia y la dimensionalidad
obtiene introducir desafíos que requieren un análisis cuidadoso. Al considerar la
aplicación de estos métodos, es crucial tener en cuenta las características del
conjunto de datos y los objetivos del análisis. La elección entre el agrupamiento
jerárquico aglomerativo y el escalamiento multidimensional no debe ser
arbitraria, sino que debe basarse en una evaluación rigurosa de las ventajas y
desventajas de cada técnica.
Tanto el agrupamiento jerárquico aglomerativo como el escalamiento
multidimensional son métodos valiosos en el análisis de datos, cada uno con sus
propias fortalezas y limitaciones. La comprensión de estos métodos no solo
ennoblece nuestra caja de herramientas analíticas, sino que asimismo nos
concede abordar preguntas complejas en biología, marketing, ciencias sociales y
más. Con el continuo avance en la disponibilidad de datos y herramientas
computacionales, el futuro del análisis de datos promete ser aún más
emocionante y revelador, ofreciendo nuevas oportunidades para descubrir
patrones y relaciones que antes podrían haber permanecido ocultos.
84
Conclusión
El análisis de datos es esencial en la investigación experimental, ya que
permite a los investigadores llegar a conclusiones informadas a partir de los datos
recolectados. De la evidencia, la interpretación correcta de los datos es crítica para
la validez de cualquier estudio, ya que la investigación experimental involucra
manipular variables para observar sus efectos en otras, lo que requiere un diseño
cuidadoso y técnicas de análisis que puedan desentrañar la complejidad de los
datos obtenidos. El análisis de componentes principales (ACP) y el análisis
factorial exploratorio (AFE) son herramientas útiles en este sentido.
El ACP ayuda a reducir la complejidad de los datos al identicar patrones
y simplicar la estructura de variables interrelacionadas, este método transforma
un conjunto de variables observadas en componentes principales, que son
combinaciones lineales de las variables originales y no están correlacionadas
entre sí. Los objetivos del ACP incluyen simplicar el análisis de datos complejos,
identicar patrones ocultos y eliminar variables irrelevantes que no aportan
información útil.
El procedimiento del ACP implica varios pasos importantes:
estandarización de los datos, cálculo de la matriz de covarianza, determinación
de eigenvectores y eigenvalores, y selección de componentes con eigenvalores
signicativos. Después de extraer los componentes principales, es crucial
interpretar sus resultados, analizando cómo inuyen las variables originales en
la variabilidad de los datos. El ACP puede ser aplicado para explorar relaciones
entre variables y mejorar la calidad de los datos, lo que es útil en la comunicación
de hallazgos mediante grácos.
85
El AFE, por otro lado, se usa para identicar la estructura subyacente de
un conjunto de variables observadas. Es útil cuando los investigadores buscan
patrones sin tener una hipótesis especíca. A diferencia del análisis factorial
conrmatorio (AFC), que se basa en teorías preexistentes, el AFE es más exible.
Determinar cuántos factores extraer es un paso clave en el AFE, y existen varios
métodos, como el criterio de Kaiser y la gráca de sedimentación, que ayudan en
esta decisión. Al igual que en el ACP, es importante evaluar la validez y abilidad
de los factores extraídos.
Ambas técnicas son valiosas en diversos campos, como en estudios de
salud blica y en investigación de mercado. Pueden ayudar a identicar
síntomas asociados con enfermedades o a segmentar clientes en grupos
homogéneos, lo que permite personalizar estrategias de marketing. A pesar de
sus ventajas, existen limitaciones, como la subjetividad en la interpretación de los
factores extraídos.
En conclusión, la transparencia sobre el uso de estas técnicas es
fundamental para mantener la integridad de la investigación y, deben ser
aplicadas con un enfoque crítico y ético para garantizar resultados ables. Por
ende, el ACP y el AFE son herramientas poderosas que facilitan la comprensión
de datos complejos, optimizando el diseño de experimentos y mejorando la
calidad de la investigación. Ahora bien, para comprender plenamente esta
metodología, es esencial abordar sus fundamentos teóricos, que abarcan desde
conceptos básicos de estadística multivariante hasta la interpretación de matrices
y la comparación con otros métodos estadísticos.
La estadística multivariante se ocupa del análisis de datos que involucran
múltiples variables simultáneamente y, a diferencia de las técnicas univariantes,
que analizan una sola variable a la vez, el camino multivariante concede captar
la complejidad de las interrelaciones entre diversas variables. No obstante, a
86
pesar de sus benecios, el análisis factorial exploratorio no está exento de
limitaciones, una de las principales críticas es que los resultados consiguen ser
sensibles a la elección de las variables iniciales y a los métodos de extracción y
rotación empleados. Incluso, el AFE asume que las relaciones entre las variables
son lineales, lo que obtiene no ser siempre el caso en situaciones reales y se opta
entonces por un análisis ACP. Finalmente, los investigadores deben asegurarse
de que las variables estén en la misma escala o, de lo contrario, normalizar los
datos para que cada variable contribuya de manera equitativa al análisis.
87
Bibliografía
Abdullah, S.S., Rostamzadeh, N., Sedig, K., Garg, A.X. y McArthur, E. (2020).
Análisis visual para la reducción de dimensiones y el análisis de clústeres de
registros médicos electrónicos de alta dimensión. Informática, 7 (2), 17.
hps://doi.org/10.3390/informatics7020017
Alata, V.L., Maldonado, M.L., Montalvan, D., Mejia, M.P., Bejarano, H.F., Fiestas,
J.C., y Aguirre, L.A. (2025). Métodos de análisis estadístico: Desde lo descriptivo
hasta lo inferencial. Colonia del Sacramento: Editorial Mar Caribe.
hps://editorialmarcaribe.es/ark:/10951/isbn.9789915698076
Amat, J. (01 Diciembre 2020). Detección de anomalías con Gaussian Mixture
Model (GMM) y Python. Ciencia de Datos.
hps://cienciadedatos.net/documentos/py23-deteccion-anomalias-gmm-python
Araya, C. (2012). Análisis de datos multivariantes con coordenadas paralelas.
Pensamiento Actual, 11(16-17), 81-91. Recuperado a partir de
hps://dialnet.unirioja.es/descarga/articulo/5897852.pdf
Argibay, P.F. (2011). Estadística avanzada en medicina: el análisis de
componentes principales. Rev. Hosp. Ital. B.Aires, 31(3), 107-112. Recuperado a
partir de
hps://www1.hospitalitaliano.org.ar/multimedia/archivos/noticias_aachs/47/d
ocumentos/11019_PAG%20107-112_HI%203-9%20ICBME.pdf
Arroyo-Hernández, J. (2016). Métodos de reducción de dimensionalidad:
Análisis comparativo de los métodos APC, ACPP y ACPK. Uniciencia, 30(1), 115-
122. hps://doi.org/hp://dx.doi.org/10.15359/ru.30-1.7
88
Ato, M., López-García, J.J., & Benavente, A. (2013). Un sistema de clasicación de
los diseños de investigación en psicología. Anales de Psicología, 29(3), 1038–1059.
hps://doi.org/10.6018/analesps.29.3.178511
Canals, M. (2023). Ensayos Bayesianos I: Buscando a Bayes. Boletín de
Bioestadística, 9, 14-20. Recuperado a partir de
hps://revistasdex.uchile.cl/index.php/int/article/download/13408/13431/33067
Cárdenas, P. (02 Noviembre 2021). El Algoritmo EM y la Bioingeniería
Computacional. Bioingeniería. hps://www1.utec.edu.pe/blog-de-
carreras/bioingenieria/el-algoritmo-em-y-la-bioingenieria-computacional
Catena, A., Ramos, M.M., y Trujillo, H.M. (2003). Análisis multivariado: Un manual
para investigadores. Madrid: Editorial Biblioteca Nueva
Deisenroth, M.P., Aldo, A., & Soon, Ch. (2024). Mathematics For Machine Learning.
Cambridge: Cambridge University Press
Doval, E., Viladrich, C., & Angulo-Brunet, A. (2023). Coeciente Alfa: la
Resistencia de un Clásico. Psicothema, 35(1), 05-20.
hps://doi.org/10.7334/psicothema2022.321
Ferrando, P.J., & Anguiano-Carrasco, C. (2010). El análisis factorial como técnica
de investigación en psicología. Papeles del Psicólogo, 31(1), 18-33
Jollie, I.T., & Cadima, J. (2016). Principal component analysis: a review and
recent developments. Philosophical transactions. Series A, Mathematical, physical,
and engineering sciences, 374(2065), 20150202.
hps://doi.org/10.1098/rsta.2015.0202
Kamalov, F., Sulieman, H., Alzaatreh, A., Emarly, M., Chamlal, H. y Safaraliev,
M. (2025). Métodos matemáticos en la selección de características: Una
revisión. Matemáticas , 13 (6), 996. hps://doi.org/10.3390/math13060996
89
Kwak, S.K., & Kim, J.H. (2017). Statistical data preparation: management of
missing values and outliers. Korean journal of anesthesiology, 70(4), 407–411.
hps://doi.org/10.4097/kjae.2017.70.4.407
Lamfre, L., Perren, J., & Bramardi, S. (2023). Análisis de correspondencias
múltiple condicionada. Una aplicación al estudio de la calidad de vida según
clase social en la Argentina de inicios del milenio. SaberEs, 15(2), 157-175
León González, Á., Llinás Solano, H., & Tilano, J. (2008). Análisis multivariado
aplicando componentes principales al caso de los desplazados. Ingeniería y
Desarrollo, (23), 119-142
Lloret-Segura, S., Ferreres-Traver, A., Hernández-Baeza, A., & Tomás-Marco, I.
(2014). El Análisis Factorial Exploratorio de los Ítems: una guía práctica, revisada
y actualizada. Anales de Psicología, 30(3), 1151-
1169. hps://dx.doi.org/10.6018/analesps.30.3.199361
López Serrano, S.C., Chung Alonso, P., & Ramírez Rivera, M.. (2021). Proceso
Analítico Jerárquico (AHP) como método multicriterio para la localización
óptima de estaciones intermodales. Economía, sociedad y territorio, 21(66), 315-358.
Epub 04 de octubre de 2021.hps://doi.org/10.22136/est20211583
Manterola, C., Grande, L., Oen, T., García, N., Salazar, P., & Quiroz, G. (2018).
Conabilidad, precisión o reproducibilidad de las mediciones. Métodos de
valoración, utilidad y aplicaciones en la práctica clínica. Revista chilena de
infectología, 35(6), 680-688. hps://dx.doi.org/10.4067/S0716-10182018000600680
Martínez Ávila, M. (2021). Análisis factorial conrmatorio: un modelo de gestión
del conocimiento en la universidad pública. RIDE. Revista Iberoamericana para la
Investigación y el Desarrollo Educativo, 12(23), e059.
hps://doi.org/10.23913/ride.v12i23.1103
90
Murtagh, F., y Legendre, P. (2014). Método de agrupamiento aglomerativo
jerárquico de Ward: ¿Qué algoritmos implementan el criterio de Ward?. J Classif,
31, 274–295. hps://doi.org/10.1007/s00357-014-9161-z
Pham, T.T., Lobos, G.A., & Vidal-Silva, C.L. (2019). Innovación en Minería de
Datos para el Tratamiento de Imágenes: Agrupamiento K-media para Conjuntos
de Datos de Forma Alargada y su Aplicación en la Agroindustria. Información
tecnológica, 30(2), 135-142. hps://dx.doi.org/10.4067/S0718-07642019000200135
Rodríguez Bárcenas, G. (2022). Método de algoritmo de clúster para el análisis
del perl de investigadores cientícos. E-Ciencias De La Información, 12(2).
hps://doi.org/10.15517/eci.v12i2.50456
Rondón, H.S., Ladino, L.A. y Orduz, P. (2015). Acerca de la enseñanza del
teorema de Bayes. Revista Educación y Desarrollo Social. 9(1), 144-159
Sun, Y., Zhou, S., Meng, S. et al. (2023). Análisis de componentes principales:
modelo basado en redes neuronales articiales para predecir la resistencia
estática de suelos congelados estacionalmente. Sci Rep, 13, 16085.
hps://doi.org/10.1038/s41598-023-43462-7
Toro Ocampo, E.M., Pérez Hernández, L.P., & Bernal, M.E. (2007). Reducción de
la dimensionalidad con componentes principales y técnica de búsqueda de la
proyección aplicada a la clasicación de nuevos datos. Tecnura, 11(21), 29-40
Villarroel, L., Alvarez, J., & Maldonado, D. (2003). Aplicación del Análisis de
Componentes Principales en el Desarrollo de Productos. Acta Nova, 2(3), 399-408
Villegas Zamora, D.A. (2019). La importancia de la estadística aplicada para la
toma de decisiones en Marketing. Revista Investigación y Negocios, 12(20), 31-44.
Recuperado a partir de
hp://www.scielo.org.bo/pdf/riyn/v12n20/v12n20_a04.pdf
91
Esta edición de Análisis de componentes principales y factorial exploratorio aplicado
a la investigación experimental" se realizó en la ciudad de Colonia del Sacramento
en la República Oriental del Uruguay el 06 de junio de 2025.
92