Pรกg. 1
Editorial Mar Caribe
Mรฉtodos estadรญsticos descriptivos y de aprendizaje
automรกtico para las finanzas
2024
Pรกg. 2
Mรฉtodos estadรญsticos descriptivos y de aprendizaje automรกtico para las finanzas
Rolando Wilber Ordoรฑez Neyra, Beto Puma Huamรกn, Edgardo Martin Figueroa
Donayre, Rogger Humpiri Flores, Hector Ito Mamani, Cesar Eusebio Pacori Mamani
ยฉ Rolando Wilber Ordoรฑez Neyra, Beto Puma Huamรกn, Edgardo Martin Figueroa
Donayre. Rogger Humpiri Flores, Hector Ito Mamani, Cesar Eusebio Pacori Mamani
Primera ediciรณn: Julio, 2024
Editado por:
Editorial Mar Caribe
www.editorialmarcaribe.es
Av. General Flores 547, Colonia, Colonia-Uruguay.
Diseรฑo de cubierta: Yelitza Sรกnchez Cรกceres
Libro electrรณnico disponible en https://editorialmarcaribe.es/?page_id=805
Formato: electrรณnico
ISBN: 978-9915-9682-2-3
Hecho el Depรณsito Legal en la Biblioteca Nacional de Uruguay Nยฐ.: 385.374
Aviso de derechos de atribuciรณn no comercial: Los autores pueden autorizar al pรบblico
en general a reutilizar sus obras รบnicamente con fines no lucrativos, los lectores pueden
usar una obra para generar otra obra, siempre y cuando se dรฉ el crรฉdito de investigaciรณn
y, otorgan a la editorial el derecho de publicar primero su ensayo bajo los tรฉrminos de la
licencia CC BY-NC 4.0.
Pรกg. 3
รndice
Introducciรณn ...................................................................................................................................7
Capรญtulo 1 .......................................................................................................................................9
El Machine Learning en las finanzas ............................................................................................9
La percepciรณn socioeconรณmica ........................................................................................ 13
Aplicaciones en el sistema financiero ............................................................................. 17
Las ventajas ML en el sistema financiero ....................................................................... 28
Los desafรญos de la ML ....................................................................................................... 34
La competencia ............................................................................................... 36
El accionar ....................................................................................................... 37
Legislaciรณn y รฉtica .......................................................................................... 38
La humanidad ................................................................................................ 40
Capรญtulo 2 .....................................................................................................................................41
Anรกlisis descriptivo en el aprendizaje automรกtico ................................................................41
Los procesos en las finanzas ............................................................................................ 43
Los datos ......................................................................................................... 47
El anรกlisis exploratorio de los datos ............................................................ 50
Tipos de Datos ................................................................................................................... 51
Los datos categรณricos: cualitativos .............................................................. 53
Los datos numรฉricos ...................................................................................... 54
Los otros tipos de datos ................................................................................ 56
El procesamiento de datos en la computadora .......................................... 58
La estrategia en el anรกlisis de datos con el empleo de programas de computaciรณn
.......................................................................................................................... 61
Los malos hรกbitos en el empleo de la computadora ................................. 64
Grรกficos en la estadรญstica descriptiva .............................................................................. 65
Grรกfico de torta............................................................................................... 66
El histograma .................................................................................................. 67
El grรกfico de caja ............................................................................................ 68
Los grรกficos de gusanos ................................................................................ 69
Los grรกficos de dispersiรณn ............................................................................ 69
Capรญtulo 3 ........................................................................................................................... 73
El procesamiento de datos ............................................................................................... 73
Los valores duplicados .................................................................................. 74
Los valores atรญpicos ........................................................................................ 75
Los valores faltantes ...................................................................................... 76
La estandarizaciรณn ......................................................................................... 77
Pรกg. 4
La reducciรณn de los datos ............................................................................. 78
El aprendizaje no supervizado .................................................................... 80
El K-means ...................................................................................................... 82
El DBSCAN ..................................................................................................... 85
Los otros modelos de aprendizaje no supervisado ................................... 88
Los coeficientes de evaluaciรณn ..................................................................... 88
El aprendizaje supervisado .............................................................................................. 91
Entrenamiento y pruebas .............................................................................. 92
La regresiรณn lineal .......................................................................................... 93
La regresiรณn logรญstica ..................................................................................... 94
El รกrbol de decisiรณn ........................................................................................ 95
La matriz de confusiรณn .................................................................................. 95
Capรญtulo 4 .....................................................................................................................................98
Redes neuronales ........................................................................................................................98
Caracterรญsticas .................................................................................................................... 98
Su estructura ................................................................................................... 99
La computaciรณn neuronal .............................................................................................. 102
Historia .......................................................................................................... 104
La actualidad ................................................................................................ 106
ANN: aplicaciones .......................................................................................................... 107
Clasificaciรณn ..................................................................................................................... 111
La red neuronal multicapa ............................................................................................. 114
Procesamiento: las entradas y las salidas .................................................................... 115
Las redes neuronales y los sistemas adaptativos ........................................................ 116
El perceptron .................................................................................................................... 117
Los filtros adaptativos de redes neuronales ................................................................ 119
Las funciones adaptativas .............................................................................................. 119
El reconocimiento estadรญstico de patrones: redes neuronales .................................. 120
El reconocimiento de patrones ................................................................... 120
Descripciรณn del reconocimiento ................................................................ 120
La regresiรณn .................................................................................................. 122
Los datos de entrenamiento: validaciรณn y de testeo ............................... 123
El reconocimiento estadรญstico de los patrones ............................................................ 124
Las tรฉcnicas de reconocimiento de patrones ............................................................... 125
El aprendizaje y la generalizaciรณn ................................................................................ 127
La evaluaciรณn de la generalizaciรณn ............................................................................... 128
El entrenamiento y la generalizaciรณn ........................................................................... 129
La redes neuronales con mapas autoorganizados ...................................................... 130
Pรกg. 5
Los fundamentos biolรณgicos .......................................................................................... 134
La arquitectura ............................................................................................. 135
El algoritmo .................................................................................................. 136
La etapa del funcionamiento ...................................................................... 136
La etapa de aprendizaje .............................................................................. 137
Las fases ......................................................................................................... 141
Las redes neuronales dinรกmicas.................................................................................... 147
Su estructura ................................................................................................. 148
La innovaciรณn financiera ................................................................................................ 148
Inclusiรณn ........................................................................................................ 149
La innovaciรณn digital en el sector econรณmico .......................................... 150
Conclusiones .................................................................................................................... 154
Bibliografรญa .................................................................................................................................157
Pรกg. 6
Pรกg. 7
Introducciรณn
El aprendizaje automรกtico cae bajo el paraguas de la ciencia de datos e implica la
utilizaciรณn de modelos estadรญsticos para extraer informaciรณn y hacer pronรณsticos, y
presenta la ventaja de adquirir conocimientos a travรฉs de la experiencia en lugar de
depender de una programaciรณn explรญcita. Su funciรณn consiste en seleccionar modelos
adecuados y proporcionarles datos, lo que en รบltima instancia lleva a que el modelo ajuste
sus parรกmetros de forma autรณnoma para mejorar su rendimiento.
Los especialistas en anรกlisis de datos se dedican a la formaciรณn de modelos de
aprendizaje automรกtico utilizando conjuntos de datos existentes. Posteriormente utilizan
estos modelos en escenarios prรกcticos. El modelo se inicia como un proceso que se ejecuta
en segundo plano y tiene la capacidad de generar resultados automรกticamente segรบn su
configuraciรณn. Dependiendo de los requisitos especรญficos de una empresa, los modelos se
pueden entrenar periรณdicamente para garantizar que se mantengan actualizados.
Algunas empresas pueden incluso actualizar sus modelos diariamente, aunque esta
frecuencia puede variar en funciรณn del volumen de datos recopilados.
En el รกmbito del aprendizaje automรกtico, se entiende ampliamente que la precisiรณn
de los resultados es directamente proporcional al volumen de datos incorporados al
modelo. Afortunadamente, el sector financiero cuenta con una amplia gama de datos que
abarcan multitud de facetas, incluidos varios tipos de transacciones, informaciรณn del
cliente, detalles de facturas y mucho mรกs. En consecuencia, es inequรญvoco que los datos
desempeรฑan un papel insustituible en el รกmbito del aprendizaje automรกtico dentro de la
industria financiera.
El rรกpido ritmo de los avances tecnolรณgicos evoluciona constantemente y, al
mismo tiempo, la cantidad de informaciรณn que se genera crece exponencialmente. Estos
factores combinados indican que, en el futuro cercano, las aplicaciones potenciales del
aprendizaje automรกtico en el รกmbito de los servicios financieros serรกn cada vez mรกs
imperceptibles y aparentemente inalcanzables. Sin embargo, la mayorรญa de las
instituciones financieras aรบn no estรกn preparadas para aprovechar plenamente el
inmenso potencial de esta tecnologรญa. ยฟCuรกles son las razones detrรกs de esta falta de
preparaciรณn?
Pรกg. 8
โ€ข Muchas empresas no comprenden del todo las verdaderas ventajas que puede
aportar el aprendizaje automรกtico.
โ€ข La investigaciรณn y el desarrollo de tecnologรญa de aprendizaje automรกtico a menudo
pueden generar costes elevados.
โ€ข Actualmente, hay escasez de personas capacitadas en los campos del aprendizaje
automรกtico y la ingenierรญa de inteligencia artificial.
โ€ข Los administradores de instituciones financieras suelen ser personas con aversiรณn
al riesgo y cautelosas a la hora de tomar decisiones que pueden tener posibles
consecuencias negativas. Ademรกs, tienden a ser lentos a la hora de implementar
cambios y actualizar su infraestructura de datos, y a menudo toman una cantidad
de tiempo considerable antes de adoptar nuevas tecnologรญas o sistemas.
Un nรบmero limitado de empresas ha adoptado la adopciรณn de tรฉcnicas de
aprendizaje automรกtico en sus operaciones. Si bien, las empresas que han implementado
con รฉxito esta tecnologรญa han experimentado innumerables ventajas notables. Una de esas
ventajas es la reducciรณn significativa de los costes operativos, atribuida principalmente a
la automatizaciรณn de diversos procesos. Asimismo, estas empresas han observado un
aumento sustancial en la generaciรณn de ingresos, que puede atribuirse a mayores niveles
de productividad y una mejor experiencia de usuario. Ademรกs, la implementaciรณn del
aprendizaje automรกtico tambiรฉn ha reforzado las medidas de seguridad empleadas por
estas empresas, fortaleciendo asรญ sus defensas contra posibles amenazas cibernรฉticas.
Pรกg. 9
Capรญtulo 1
El Machine Learning en las finanzas
Nos encontramos en una era intrigante de la tecnologรญa, donde los constantes
avances y descubrimientos descubren continuamente el inmenso potencial de cada
innovaciรณn. Todo comenzรณ en agosto de 1981, cuando IBM presentรณ la primera
computadora personal del mundo, inicialmente diseรฑada para mejorar los lanzamientos
balรญsticos, pero que finalmente condujo al desarrollo de muchas otras aplicaciones que
han transformado profundamente nuestra sociedad. A medida que se desarrollaba la
tercera revoluciรณn industrial, la llegada de Internet impulsรณ la importancia de los
telรฉfonos mรณviles como dispositivos personales para gestionar informaciรณn y acceder a
una gran cantidad de servicios, incluidos los financieros. Sin embargo, el futuro presenta
perspectivas aรบn mรกs prometedoras con la apariciรณn de la computaciรณn cuรกntica. En un
logro innovador anunciado por Google en octubre de 2019, realizaron con รฉxito un
cรกlculo de nรบmeros aleatorios en apenas tres minutos y veinte segundos, una tarea que a
las computadoras tradicionales mรกs potentes de la actualidad les habrรญa llevado miles de
aรฑos completar. Este notable progreso significa que el รกmbito de la computaciรณn cuรกntica
estรก avanzando rรกpidamente y estรก preparado para revolucionar el panorama tecnolรณgico
en formas que apenas podemos comenzar a comprender.
El uso generalizado de dispositivos mรณviles y redes sociales ha aumentado
enormemente las capacidades de procesamiento y acceso a informaciรณn personalizada.
Esto nos ha permitido convertir datos dispersos en informaciรณn valiosa, lo que nos
permite identificar necesidades, preferencias y hรกbitos de compra individuales en tiempo
real. Como resultado, el marketing directo ha mejorado enormemente. En palabras de
John Naisbitt, autor de Megatrends, ahora tenemos una economรญa que depende
exclusivamente de un recurso renovable y autogenerado: la informaciรณn. El desafรญo no
radica en quedarse sin informaciรณn, sino en encontrar formas de navegar a travรฉs de su
abrumadora cantidad. Por lo tanto, es crucial explorar mรกs a fondo el profundo impacto
de estas tecnologรญas que avanzan rรกpidamente.
El campo del anรกlisis empresarial utiliza una metodologรญa conocida como Machine
Learning, que es un subconjunto de la Inteligencia Artificial. Esta metodologรญa implica
analizar datos e informaciรณn para comprender y describir eventos pasados, determinar
Pรกg. 10
las razones detrรกs de ellos, hacer predicciones sobre eventos futuros y proponer
estrategias para lograr los resultados deseados. Al emplear tรฉcnicas de aprendizaje
automรกtico, las empresas y sus clientes pueden extraer informaciรณn valiosa de las
observaciones y utilizarla para tomar decisiones informadas.
El Machine Learning es un campo fascinante dentro de la inteligencia artificial que
permite a las mรกquinas aprender y mejorar su rendimiento a travรฉs de algoritmos. Sus
diversas formas de aprendizaje, como el supervisado, el no supervisado, el refuerzo y el
aprendizaje profundo, permiten a las mรกquinas hacer predicciones, descubrir patrones y
tomar decisiones informadas basadas en datos. A medida que el aprendizaje automรกtico
continรบa avanzando, tiene un inmenso potencial para revolucionar numerosas industrias
e impulsar la innovaciรณn en el futuro.
Asรญ, el aprendizaje profundo consiste en una red de algoritmos que funcionan en
paralelo y cada uno de los cuales contribuye al procesamiento de los datos. Como un
embudo, los datos pasan por mรบltiples capas de algoritmos, reduciendo progresivamente
la cantidad de informaciรณn que se procesa. Este enfoque de mรบltiples capas mejora las
capacidades de los sistemas de aprendizaje automรกtico y permite un anรกlisis y una toma
de decisiones mรกs complejos. Machine Learning (ML) es un subconjunto de la inteligencia
artificial (IA) que implica el uso de algoritmos para mejorar el rendimiento de las
mรกquinas y permitirles aprender a partir de experiencias o datos de muestra.
En tรฉrminos mรกs simples, ML permite que las mรกquinas aprendan sin
programaciรณn explรญcita. Cuando estas tรฉcnicas de ML se aplican a grandes bases de datos,
se denomina "minerรญa de datos", haciendo una analogรญa con la extracciรณn de materiales
preciosos de las minas. Asรญ como se obtiene una pequeรฑa cantidad de material valioso de
las minas, de la gran cantidad de datos que se analizan se extrae una pequeรฑa cantidad
de informaciรณn significativa. Por otro lado, el aprendizaje no supervisado opera
รบnicamente con datos de entrada sin ninguna variable predeterminada que predecir. Su
objetivo es descubrir relaciones y similitudes dentro de los datos.
A diferencia del aprendizaje supervisado, no requiere conocimiento previo del
proceso y, en cambio, se centra en agrupar puntos de datos similares e identificar
patrones frecuentes como estรกndares de clasificaciรณn. La eficacia del aprendizaje no
supervisado depende de las similitudes inherentes presentes en los datos. ML abarca
Pรกg. 11
varios tipos de aprendizaje, incluido el aprendizaje supervisado, el aprendizaje no
supervisado, el aprendizaje por refuerzo y el aprendizaje profundo. En el aprendizaje
supervisado, el algoritmo se entrena utilizando datos de entrada y salida para replicar un
proceso especรญfico. Al comprender la relaciรณn entre entradas y salidas, el algoritmo puede
predecir comportamientos futuros o tomar decisiones informadas basadas en nuevos
datos.
La precisiรณn del aprendizaje supervisado depende en gran medida de la calidad y
cantidad de los datos disponibles. Los problemas de regresiรณn y clasificaciรณn se
distinguen segรบn la naturaleza del resultado. Si el resultado es un valor numรฉrico, se
considera regresiรณn, mientras que si implica categorizar patrones, se considera un
problema de clasificaciรณn. El aprendizaje por refuerzo implica un enfoque de prueba y
error, donde el programa toma decisiones y recibe recompensas o castigos en funciรณn de
la correcciรณn de sus acciones. A travรฉs de intentos repetidos y retroalimentaciรณn, el
programa desarrolla un algoritmo que determina la polรญtica รณptima a seguir en una
situaciรณn determinada.
La inteligencia artificial, es una concepciรณn algo difรญcil de explicar, fue presentada
por primera vez por John McCarthy en una conferencia en Dartmouth College en 1956.
McCarthy la definiรณ como la ciencia y la tecnologรญa detrรกs de la creaciรณn de mรกquinas
inteligentes. Una definiciรณn mรกs contemporรกnea, proporcionada por la Comisiรณn
Europea, caracteriza la inteligencia artificial como sistemas capaces de exhibir un
comportamiento inteligente analizando su entorno y tomando acciones hacia objetivos
especรญficos, con un cierto nivel de autonomรญa. El propรณsito de la inteligencia artificial es
alcanzar una inteligencia a nivel humano.
Para comprender plenamente el concepto de inteligencia a nivel humano es
necesario diferenciar entre inteligencia artificial general y especรญfica. La inteligencia
especรญfica se refiere a la capacidad de realizar una funciรณn particular, mientras que la
inteligencia general abarca capacidades cognitivas generales, similares a la inteligencia
humana. McCarthy enfatizรณ la importancia del sentido comรบn a la hora de replicar la
inteligencia humana. Estudiรณ cรณmo los individuos utilizan su conocimiento y su
informaciรณn para determinar el mejor curso de acciรณn. Segรบn McCarthy, el aprendizaje y
el sentido comรบn estรกn estrechamente entrelazados. Imaginรณ programas que pudieran
aprender de la experiencia con tanta eficiencia como lo hacen los humanos, con el objetivo
Pรกg. 12
de mejorar el rendimiento de las mรกquinas mediante asesoramiento en lugar de
reprogramaciรณn (Francรฉs Monedero, 2020).
El enfoque de McCarthy, conocido como "el que toma consejos", implicรณ la
construcciรณn de un programa que pudiera razonar y deducir comportamientos
apropiados. Concluyรณ que un programa posee sentido comรบn si puede deducir de forma
autรณnoma una amplia gama de consecuencias basรกndose en la informaciรณn que se le
proporciona y en el conocimiento existente. En 1960, รฉl propuso un problema que
destacaba la necesidad de que las mรกquinas pudieran aprender y comprender
instrucciones. Sugiriรณ que todos los aspectos del aprendizaje y la inteligencia podrรญan
describirse con precisiรณn para que una mรกquina pudiera simularlos. Sin embargo, a pesar
de la existencia de inteligencia artificial especรญfica, aรบn no se ha logrado una verdadera
inteligencia artificial general. Esta idea fue cuestionada por A. M. Turing en 1950 cuando
intentรณ determinar si las mรกquinas podรญan pensar. Turing concluyรณ que las definiciones
de "pensar" y "mรกquina" eran insuficientes para responder la pregunta e introdujo la
prueba del "juego de imitaciรณn" como alternativa.
La prueba tenรญa como objetivo determinar si una mรกquina podrรญa comportarse
como una persona pensante, sin centrarse en su apariencia fรญsica. Turing creรญa que una
mรกquina pensante no tenรญa por quรฉ parecerse a un ser humano. En el juego participaron
tres participantes: una persona, una mรกquina y un interrogador, y el interrogador
intentaba determinar cuรกl era la mรกquina en funciรณn de sus respuestas a un nรบmero
ilimitado de preguntas. Al interrogador no se le permitiรณ pedir demostraciones prรกcticas.
Si el interrogador no pudiera distinguir entre la mรกquina y la persona, entonces podrรญa
decirse que la mรกquina piensa. Sin embargo, en la dรฉcada de 1980, el filรณsofo John Searle
criticรณ esta teorรญa presentando un escenario hipotรฉtico en el que la conversaciรณn era en
chino y la persona que participaba no hablaba chino. Pese a ello, la persona tenรญa un libro
que contenรญa la programaciรณn informรกtica utilizada por la mรกquina para responder en
chino. Searle argumentรณ que la persona podรญa simular el mismo programa que la
mรกquina y mantener una conversaciรณn, aunque no entendiera el idioma. Usรณ este ejemplo
para sugerir que pasar la prueba de Turing por sรญ sola no es suficiente para demostrar
una verdadera inteligencia, ya que el comportamiento externo de una persona serรญa
indistinguible del de una mรกquina.
Pรกg. 13
El argumento conocido como la "Sala China" sugiere que aunque alguien pueda
pasar la prueba de Turing respondiendo apropiadamente a las preguntas en chino, eso
no significa necesariamente que comprenda el idioma. Este argumento plantea la
cuestiรณn de si memorizar un libro que contiene todas las respuestas posibles conducirรญa
a una verdadera comprensiรณn del chino. Sin embargo, Levesque sostiene que serรญa
imposible crear un libro asรญ debido a la gran cantidad de combinaciones que deberรญan
incluirse. En cambio, sugiere que se podrรญa crear un libro que explique el proceso de
suma, permitiendo a la persona aprender y comprender cรณmo sumar. Segรบn Levesque,
esto harรญa vรกlido el "Juego de la Imitaciรณn", y alcanzar una verdadera inteligencia artificial
serรญa posible una vez superado el juego.
La percepciรณn socioeconรณmica
A lo largo de la historia, la introducciรณn de tecnologรญas innovadoras, como
Internet, ha dado lugar a importantes cambios socioeconรณmicos, lo que ha provocado un
sentimiento de aprensiรณn entre las personas. De manera similar, cuando se trata de
visualizar el futuro de la inteligencia artificial (IA), hay una notable falta de consenso a
medida que surgen diversas perspectivas.
Existe un movimiento contemporรกneo conocido como neoludismo que comparte
similitudes con el movimiento ludita del siglo XIX, los cuales se oponen al progreso
tecnolรณgico. El ludismo original surgiรณ en Gran Bretaรฑa durante la revoluciรณn industrial
y se caracterizรณ por un rechazo violento a la maquinaria debido a la preocupaciรณn por la
pรฉrdida de empleo. Sin embargo, el neoludismo adopta un enfoque mรกs pasivo,
rechazando el impacto positivo de los avances tecnolรณgicos y considerรกndolos
perjudiciales para la humanidad, la naturaleza y la sociedad en su conjunto. Ray
Kurzweil, el inventor de los programas de reconocimiento รณptico de caracteres (OCR),
predice que este movimiento cobrarรก impulso a medida que la inteligencia artificial (IA)
se integre mรกs en la vida diaria. Ademรกs, Kurzweil sostiene que la evoluciรณn de la
humanidad estรก estrechamente relacionada con el desarrollo de la tecnologรญa (Kurzweil,
1999).
Asรญ, segรบn una exhaustiva investigaciรณn realizada por Timo Gnambs y Markus
Appel en 2010, se revelรณ que un asombroso 72% de las personas encuestadas expresaron
su temor de ser reemplazados por robots en sus respectivos trabajos. Esta estadรญstica
Pรกg. 14
convincente resalta la preocupaciรณn generalizada entre la poblaciรณn sobre la amenaza
potencial de la automatizaciรณn. En este sentido, es interesante observar que sรณlo el 57%
de los encuestados estaban abiertos a la idea de trabajar junto a un asistente robรณtico. Esta
disparidad en las tasas de aceptaciรณn subraya aรบn mรกs la compleja relaciรณn entre los
humanos y la tecnologรญa en el lugar de trabajo moderno.
Por el contrario, la Comisiรณn Europea apoya firmemente la idea de que la
inteligencia artificial (IA) no es sรณlo una tecnologรญa importante de nuestro tiempo, sino
mรกs bien la mรกs crucial y estratรฉgica. Enfatiza que hay mucho en juego cuando se trata
de IA y que nuestro enfoque hacia esta tecnologรญa, en รบltima instancia, darรก forma al
mundo en el que vivimos. De hecho, la Comisiรณn Europea afirma que el impacto de la IA
en la sociedad y en diversas industrias serรก tan transformador que puede compararse con
el efecto revolucionario que tuvo la electricidad en numerosos sectores hace un siglo. Asรญ
como la electricidad revolucionรณ las industrias en aquel entonces, la IA ahora estรก
preparada para provocar cambios profundos en las industrias a gran escala. Este
sentimiento lo comparte Andrew Ng, cofundador de Coursera, quien compara la IA con
la llegada de la electricidad y destaca su potencial para revolucionar y remodelar varios
sectores de manera similar. Ambas perspectivas comparten el argumento comรบn de que
el impacto de la IA en nuestro mundo es inevitable, independientemente de si serรก
ventajoso o perjudicial.
En el panorama global actual, ha habido un aumento notable en los avances
tecnolรณgicos. Esto puede atribuirse al auge de numerosas empresas de tecnologรญa tanto
en Asia como en Estados Unidos. Estas regiones han establecido la infraestructura
necesaria y poseen una gran cantidad de datos, lo que contribuye al crecimiento de la
industria tecnolรณgica. Ademรกs, un examen de los cambios ocupacionales recientes en los
EE. UU. revela un aumento significativo en los campos STEM, que abarcan ciencia,
tecnologรญa, ingenierรญa y matemรกticas. Cabe seรฑalar la apariciรณn de diversas tecnologรญas
nuevas, como la computaciรณn en la nube, que permite la prestaciรณn de servicios a travรฉs
de Internet. Otros avances destacables incluyen el procesamiento de cantidades masivas
de datos (Big Data) y la implementaciรณn de la robรณtica. Todas estas innovaciones
desempeรฑan un papel fundamental a la hora de impulsar la transformaciรณn digital de las
organizaciones (Banco de Espaรฑa, 2020).
Pรกg. 15
La IA tiene el potencial de provocar la transformaciรณn tecnolรณgica mรกs rรกpida y
significativa de la historia. La regiรณn de Asia y el Pacรญfico estรก liderando el camino en la
adopciรณn de la IA, y una de cada cinco empresas implementa esta tecnologรญa. Amรฉrica
del Norte le sigue de cerca, con una de cada diez empresas que utiliza IA. En Europa, ha
habido un aumento notable en el espรญritu emprendedor que rodea a las empresas
relacionadas con la IA. En 2019, una de cada doce nuevas empresas centrรณ su propuesta
de valor central en la IA, en comparaciรณn con solo una de cada cincuenta empresas en
2013 (Francรฉs Monedero, 2020).
Actualmente, Europa alberga aproximadamente 1.600 empresas de IA, con el
Reino Unido a la cabeza, como el paรญs con mayor nรบmero de estas empresas,
representando un tercio del total en Europa. Francia y Alemania le siguen de cerca,
mientras que Espaรฑa sorprendentemente ocupa la cuarta posiciรณn, superando su peso en
tรฉrminos de contribuciรณn. La creciente prevalencia de la IA entre los emprendedores de
hoy sirve como una clara indicaciรณn de que la IA estรก a punto de convertirse en una fuerza
omnipresente en nuestro futuro cercano (Francรฉs Monedero, 2020).
Por lo tanto, la inteligencia artificial se ha convertido en una tendencia destacada
en el mundo actual, experimentando un crecimiento rรกpido y sin precedentes. En
consecuencia, la investigaciรณn sobre su influencia se ha convertido en un รกrea de inmensa
fascinaciรณn. En la discusiรณn posterior, profundizaremos en el รกmbito del sector financiero
para explorar el impacto de la inteligencia artificial.
El sector financiero estรก repleto de una gran cantidad de datos, lo que allana el
camino para la integraciรณn del aprendizaje automรกtico. Sorprendentemente, la mayorรญa
de los bancos siguen ajenos al inmenso potencial que se esconde en mรกs del 80% de los
datos que han acumulado, como revela un informe de United Consulting Group en 2018.
Sin embargo, con la llegada de la digitalizaciรณn y la proliferaciรณn del multicanal servicios,
los datos se estรกn volviendo cada vez mรกs frecuentes en la industria. Esta nueva
abundancia de datos presenta una oportunidad de oro para que las instituciones
financieras se especialicen y se hagan un hueco ofreciendo valor aรฑadido a sus clientes.
Al aprovechar las herramientas analรญticas, estas instituciones pueden anticipar con
precisiรณn las necesidades รบnicas de sus clientes, manteniรฉndose asรญ un paso por delante
en el panorama financiero en constante evoluciรณn.
Pรกg. 16
Asimismo, la industria financiera ha sido reconocida como uno de los sectores
lรญderes en el รndice de Digitalizaciรณn de la Industria de MGI, lo que indica su importante
adopciรณn e inversiรณn en inteligencia artificial. En consecuencia, no sorprende que la
convergencia de las finanzas y la tecnologรญa, conocida como Fintech, estรฉ remodelando el
panorama del sector financiero. Esta integraciรณn abarca la utilizaciรณn de avances digitales
y modelos de negocio inventivos habilitados por la tecnologรญa dentro del รกmbito
financiero.
La inteligencia artificial, el aprendizaje automรกtico y los Smart Data son los
impulsores clave de la revoluciรณn tecnolรณgica en este sector en particular. Entre ellas, el
aprendizaje automรกtico destaca como la disciplina de inteligencia artificial mรกs utilizada
dentro de la industria financiera (Fernรกndez, 2019). Por lo tanto, este estudio enfatiza las
aplicaciones del aprendizaje automรกtico al tiempo que proporciona una descripciรณn
general de su proceso de implementaciรณn.
Para incorporar eficazmente el aprendizaje automรกtico (ML) en los procesos de
negocio, es crucial seguir una metodologรญa de trabajo sistemรกtica y desarrollar un
proyecto bien definido que tenga como objetivo crear un modelo capaz de cumplir los
objetivos predeterminados. Este proceso implica varias etapas, como la recopilaciรณn de
datos, el preprocesamiento, la capacitaciรณn del modelo y la evaluaciรณn, que deben
ejecutarse cuidadosamente para garantizar la implementaciรณn exitosa del ML en el
entorno empresarial. Al adherirse a esta metodologรญa, las empresas pueden aprovechar
el poder del ML para optimizar las operaciones, mejorar la toma de decisiones, mejorar
las experiencias de los clientes y, en รบltima instancia, impulsar el crecimiento y la
rentabilidad.
Para brindar una comprensiรณn integral de las diversas etapas involucradas en el
procesamiento de datos con fines comerciales, discutiremos la metodologรญa CRISP-DM.
Este modelo analรญtico ampliamente utilizado, conocido como Proceso Estรกndar
Intersectorial para Minerรญa de Datos, se originรณ a fines de la dรฉcada de 1990 e incorpora
dos elementos cruciales: una estrategia de calidad total, tambiรฉn conocida como mejora
continua, y el concepto de tratar un proyecto como un proceso paso a paso que consta de
mรบltiples fases. El siguiente diagrama ilustra las distintas fases de la metodologรญa CRISP-
DM.
Pรกg. 17
La etapa inicial implica obtener una comprensiรณn integral del negocio, que sirve
como base para cualquier aplicaciรณn del aprendizaje automรกtico a los datos comerciales.
Esta etapa es crucial ya que nos permite evaluar la situaciรณn actual, establecer objetivos a
nivel de minerรญa de datos y desarrollar un plan de proyecto que describa claramente los
resultados deseados de todo el proceso. Pasando a la segunda fase, nos centramos en los
procesos de captura de datos, determinando las fuentes de las que se extraerรกn los datos.
Esto implica buscar fuentes confiables y garantizar la calidad de los datos. Una vez
identificados, decidimos un mรฉtodo de extracciรณn que minimice la corrupciรณn y cumpla
con los requisitos de seguridad. Esta fase tambiรฉn implica la comprensiรณn de los datos,
donde realizamos tareas de exploraciรณn y gestiรณn de calidad para identificar posibles
problemas y ofrecer soluciones. A continuaciรณn, preparamos los datos estableciendo el
universo de datos con el que se trabajarรก y realizando las tareas de limpieza necesarias.
En esta fase, empleamos tรฉcnicas de preparaciรณn de datos para adaptar el conjunto de
datos para su uso con varios algoritmos. La fase de modelado implica seleccionar las
tรฉcnicas de aprendizaje automรกtico mรกs adecuadas y que produzcan los mejores
resultados para nuestro conjunto de datos, teniendo en cuenta el tipo de datos y nuestros
objetivos.
Adicionalmente, establecemos una estrategia para verificar la calidad del modelo.
Vale la pena seรฑalar que ningรบn mรฉtodo o algoritmo domina a los demรกs, ya que depende
del conjunto de datos especรญfico que se analiza. Por lo tanto, es crucial evaluar el modelo.
Finalmente, diseรฑamos un plan de despliegue de producciรณn de los modelos y
comunicamos el conocimiento adquirido a partir de ellos dentro de nuestra organizaciรณn.
Tambiรฉn llevamos a cabo una revisiรณn integral del proyecto en su conjunto para
identificar las lecciones aprendidas. Este modelo en particular evalรบa sus resultados
basรกndose en la prosperidad de la empresa en lugar de basarse en puntos de referencia
estadรญsticos.
Aplicaciones en el sistema financiero
Las tรฉcnicas no supervisadas desempeรฑan un papel crucial en el anรกlisis de
grandes volรบmenes de datos, particularmente en el รกmbito financiero, donde se emplean
para identificar posibles casos de fraude. Dado que las tarjetas de crรฉdito se estรกn
volviendo cada vez mรกs populares como medio de pago, la ocurrencia de actividades
Pรกg. 18
fraudulentas ha mostrado una tendencia a aumentar. Esto ha llevado a las instituciones
financieras a recurrir a metodologรญas inteligentes, ya que los enfoques convencionales de
detecciรณn manual de fraude demostraron ser lentos en su capacidad para mantenerse al
dรญa con la creciente tasa de fraude.
Los bancos emplean un servicio de seguridad que se activa cuando los patrones
de gasto de un cliente se desvรญan de sus gastos habituales. Para identificar transacciones
potencialmente sospechosas (conocidas como valores atรญpicos), se utilizan mรฉtodos no
supervisados para comparar cada transacciรณn con las anteriores. Estos mรฉtodos implican
analizar diversos factores como la ubicaciรณn del cliente, sus preferencias, sus hรกbitos de
compra y su comportamiento tรญpico.
Los mรฉtodos supervisados se emplean en los casos en que se construye un modelo
utilizando una colecciรณn de transacciones fraudulentas y legรญtimas para categorizar
efectivamente nuevas transacciones como fraudulentas o legรญtimas. En un estudio
realizado por Bhattacharyya, Jha, Tharakunnel y Westland (2011), se descubriรณ que los
bosques aleatorios, un tipo de algoritmo supervisado, superaban a otros mรฉtodos en
tรฉrminos de diversos criterios de rendimiento. Para identificar patrones e identificar
transacciones anรณmalas, se utilizan datos histรณricos y el comportamiento del cliente.
La implementaciรณn del aprendizaje automรกtico plantea numerosos desafรญos
debido a diversos obstรกculos, como manejar grandes cantidades de datos, navegar a
travรฉs de distribuciones cambiantes y sesgadas, manejar la variabilidad de los costos de
error a lo largo del tiempo (incluidos falsos positivos y falsos negativos) y adaptarse a
cambios en constante evoluciรณn. comportamientos y cuestiones sociales.
Por otro lado, la utilizaciรณn de la herramienta SNA tambiรฉn puede ayudar en la
detecciรณn de fraude. El anรกlisis de redes sociales (SNA) es una tรฉcnica que se esfuerza por
identificar y comprender las conexiones entre individuos o entidades dentro de grupos
sociales. Al estudiar el impacto de las interconexiones dentro de una red, el SNA pretende
obtener informaciรณn sobre diversos fenรณmenos sociales. Una red social comprende
actores interconectados, que pueden ser individuos o entidades, vinculados por lazos
familiares, parentesco, membresรญa compartida en un grupo u organizaciรณn. Esta tรฉcnica
se basa en la teorรญa de grafos y emplea mediciones matemรกticas para describir la
estructura de la red y el significado de la disposiciรณn de los nodos.
Pรกg. 19
En este contexto, los nodos representan a los actores dentro de la red social y las
relaciones entre los participantes se representan como vรญnculos que conectan estos nodos.
En lugar de tratar a los nodos como entidades aisladas, el SNA se centra en comprender
el comportamiento humano basรกndose en la importancia de las relaciones sociales y sus
implicaciones. La importancia del estudio de las redes sociales se remonta a la
antropologรญa y la sociologรญa, particularmente en los modelos psicomรฉtricos. Al examinar
las conexiones de red a travรฉs del SNA, los modelos se vuelven menos dependientes de
la subjetividad y minimizan el riesgo de perder informaciรณn crรญtica, ya que se pueden
calcular parรกmetros cuantitativos de la red y se pueden interpretar grรกficos.
El fraude con tarjeta no presente (CNP), que se refiere a realizar pagos con una
tarjeta sin necesidad de estar fรญsicamente presente durante la transacciรณn, estรก en
aumento y a menudo se asocia con redes organizadas de estafadores. Para abordar este
problema, el Anรกlisis de Redes Sociales (SNA) se ha convertido en una herramienta
prometedora para detectar y comprender las conexiones entre estos estafadores. A
diferencia de los mรฉtodos tradicionales de detecciรณn de fraude que se basan en el anรกlisis
de puntuaciones de riesgo, SNA se centra en las relaciones entre los actores en las redes
sociales para identificar comportamientos fraudulentos. Esto significa que SNA puede
analizar datos de diversas fuentes, incluidas plataformas de redes sociales, registros
telefรณnicos y pasarelas de pago, para descubrir patrones y conexiones que puedan indicar
actividad fraudulenta. Al incorporar el SNA al modelo existente de detecciรณn de fraude,
los investigadores esperan obtener conocimientos mรกs profundos sobre los mecanismos
subyacentes del fraude y desarrollar estrategias de prevenciรณn mรกs efectivas.
Los mรฉtodos supervisados, como la regresiรณn y la clasificaciรณn, desempeรฑan un
papel crucial en la predicciรณn de las variables de riesgo crediticio, especรญficamente en la
calificaciรณn crediticia. Por otro lado, los mรฉtodos no supervisados se centran en el anรกlisis
y procesamiento de datos. El objetivo principal de los mรฉtodos supervisados es identificar
y detectar posibles riesgos futuros que puedan resultar en incumplimiento. Vale la pena
seรฑalar que la eficacia de los algoritmos de aprendizaje automรกtico afecta directamente
la precisiรณn de las predicciones del sistema, incluida la determinaciรณn del momento, los
datos, el contenido y el canal correctos. Esta comprensiรณn integral permite la formulaciรณn
de ofertas de pago adecuadas para motivar a las personas a cumplir con sus obligaciones
de deuda.
Pรกg. 20
Los cuadros de mando se utilizan con el fin de evaluar el riesgo crediticio de los
clientes, particularmente despuรฉs de la introducciรณn de Basilea II en 2007 por el Comitรฉ
de Basilea. Este acuerdo internacional exige que las instituciones financieras posean
mecanismos efectivos para evaluar el riesgo crediticio de los clientes, lo que requiere
ajustes en los sistemas de presentaciรณn de informes y mรฉtodos de anรกlisis de la
informaciรณn.
Un cuadro de mando es un modelo que utiliza datos para estimar la probabilidad
de que un cliente incumpla su crรฉdito. Esta herramienta es particularmente รบtil para los
bancos, ya que proporciona un formato estructurado y fรกcil de entender para evaluar la
solvencia de sus clientes. El cuadro de mando consta de varios componentes, incluidas
caracterรญsticas, atributos y puntos. Las caracterรญsticas se refieren a los datos que se
analizan sobre el cliente, como su edad y situaciรณn laboral. Los atributos, por otro lado,
son las diferentes respuestas o categorรญas dentro de cada caracterรญstica. Por ejemplo, la
edad podrรญa clasificarse en rangos como 18-25 o 25-35, mientras que la situaciรณn laboral
podrรญa clasificarse como desempleado o gerente, entre otros. Se asignan puntos a cada
atributo y sirven como una puntuaciรณn que indica la probabilidad de incumplimiento del
cliente. Cuantos mรกs puntos reciba un cliente, menor serรก su probabilidad de
incumplimiento. El nรบmero especรญfico de puntos asignados a cada atributo estรก
determinado por los datos histรณricos del banco sobre el poder predictivo de la
caracterรญstica y la correlaciรณn entre diferentes caracterรญsticas .
Hay dos categorรญas distintas de calificaciรณn crediticia conocidas como calificaciรณn
de aplicaciรณn y calificaciรณn de comportamiento. La puntuaciรณn de solicitud se centra
รบnicamente en la informaciรณn proporcionada por el cliente que busca crรฉdito, mientras
que la puntuaciรณn de comportamiento incorpora tanto la informaciรณn proporcionada
como los datos histรณricos. El proceso de creaciรณn de un cuadro de mando crediticio
implica tres etapas: recopilar y construir el conjunto de datos necesario, aplicar el modelo
y documentar los resultados.
El paso inicial consiste en recopilar los datos necesarios y dividirlos en dos grupos
distintos. Los datos de entrenamiento, que representan el 70% del conjunto de datos, se
utilizarรกn para construir el cuadro de mando, mientras que el 30% restante se utilizarรก
como datos de prueba para evaluar la precisiรณn del cuadro de mando. A continuaciรณn,
debemos evaluar las caracterรญsticas de los datos y descartar aquellos que menos
Pรกg. 21
contribuyen a las predicciones, simplificando el conjunto de datos. Ademรกs, es posible
segmentar los datos, creando cuadros de mando separados para clientes con diferentes
atributos, con el fin de mejorar las capacidades de predicciรณn. Una vez que se ha
desarrollado el modelo, se somete a pruebas utilizando los datos de prueba. Si el banco
estรก satisfecho con la precisiรณn del modelo a la hora de predecir resultados, se
implementarรก para su uso.
Las instituciones financieras frecuentemente encuentran dificultades al utilizar
datos histรณricos debido a su naturaleza desequilibrada. Este desequilibrio plantea un
desafรญo importante para estas instituciones mientras navegan por las complejidades del
anรกlisis e interpretaciรณn de los datos. Cuando se trata de anรกlisis de riesgo crediticio, es
importante seรฑalar que los bancos sรณlo tienen datos sobre los clientes a los que se les han
concedido prรฉstamos, no sobre aquellos a los que se les ha negado. En consecuencia, los
datos histรณricos solo incluyen informaciรณn sobre el nรบmero total de clientes que han
recibido prรฉstamos, no el nรบmero total de clientes que han solicitado prรฉstamos. Los
datos de las personas a quienes se les han negado prรฉstamos no se registran, lo que genera
un sesgo conocido como sesgo de rechazo.
Como resultado, los bancos tienen mรกs casos de clientes que han pagado con รฉxito
sus prรฉstamos en comparaciรณn con aquellos que no lo han hecho. Equilibrar estos datos
supondrรญa un coste significativo para la empresa, ya que tendrรญa que aprobar prรฉstamos
para personas que es poco probable que los paguen. Para abordar este problema, se
pueden emplear varias tรฉcnicas de extracciรณn de datos, como el muestreo, para mitigar el
problema. La tรฉcnica mรกs utilizada es el muestreo, que implica tres enfoques diferentes.
El submuestreo implica eliminar observaciones de los datos repetidas aleatoriamente,
generalmente aquellas de clientes que han pagado exitosamente sus prรฉstamos. Por otro
lado, el sobremuestreo agrega observaciones de la clase menos comรบn, aumentando los
datos existentes para esa clase en particular. Por รบltimo, se puede emplear una tรฉcnica
hรญbrida, combinando elementos de los mรฉtodos antes mencionados para lograr un
conjunto de datos equilibrado.
Un campo que estรก fuertemente influenciado por los algoritmos es el comercio de
alta frecuencia, donde es necesario tomar decisiones en fracciones de segundo. El
comercio de alta frecuencia, a menudo abreviado como HFT, es una prรกctica en la que los
inversores emplean programas de software especializados para implementar estrategias
Pรกg. 22
de inversiรณn en mรบltiples valores de manera sistemรกtica y con alta frecuencia. Esta
ingenierรญa matemรกtica, a menudo denominada robots financieros, permite ejecutar
รณrdenes de acciones en cuestiรณn de segundos, lo que ha generado controversia en el
mercado. Segรบn Martรญnez (2010), los sistemas automรกticos representan hoy mรกs del 60%
del negocio bursรกtil mundial, lo que genera preocupaciรณn sobre su potencial para
desestabilizar el mercado. El concepto detrรกs de HFT era minimizar los costos de
transacciรณn y maximizar las ganancias; asรญ el aprendizaje automรกtico se ha convertido en
una herramienta popular para ejecutar operaciones y generar alfa.
Para mejorar la eficiencia de diversas tareas, se emplea el aprendizaje por refuerzo,
ya que nos permite adquirir conocimientos sobre cรณmo navegar y tomar decisiones de
manera efectiva dentro de un entorno determinado, en lugar de predecir รบnicamente los
resultados deseados. Al utilizar algoritmos de aprendizaje por refuerzo, podemos
determinar el curso de acciรณn mรกs adecuado en funciรณn de las circunstancias
prevalecientes. En consecuencia, esto puede proporcionar una valiosa orientaciรณn a los
inversores, ayudรกndoles a identificar el momento y el lugar รณptimos para adquirir valores
financieros, minimizando asรญ los costos y maximizando el rendimiento de la inversiรณn.
En el รกmbito de las finanzas, el tรฉrmino "alfa" se refiere a la capacidad de un activo
financiero para superar al mercado general y lograr una mayor rentabilidad. Para lograr
alfa, los analistas e inversores emplean modelos de predicciรณn del movimiento de precios
para identificar seรฑales ventajosas que superen los costos asociados con el comercio. Este
meticuloso proceso se basa en el anรกlisis de datos pasados para determinar tendencias
futuras y tomar decisiones de inversiรณn informadas.
Para comprender el sector financiero, es fundamental tener claro lo que implica un
mercado eficiente, en donde los precios de los activos financieros reflejan con precisiรณn
toda la informaciรณn disponible. Esto significa que los precios de estos activos representan
su verdadero valor intrรญnseco y se actualizan en tiempo real a medida que hay nueva
informaciรณn disponible. Al adherirse a esta teorรญa, se desacredita cualquier nociรณn de
obtener ganancias prediciendo movimientos futuros de precios. Afirma que los
productos financieros no estรกn ni infravalorados ni sobrevalorados. Segรบn la teorรญa del
mercado eficiente, es posible lograr altos rendimientos, pero sรณlo en proporciรณn al riesgo
asociado. Sin embargo, la evidencia reciente sugiere que los principios fundamentales de
la teorรญa financiera han quedado desacreditados. El mercado financiero no es tan eficiente
Pรกg. 23
como se creรญa anteriormente, lo que permite a los inversores beneficiarse potencialmente
de la predicciรณn de futuras fluctuaciones de precios. Aquรญ es donde el aprendizaje
automรกtico juega un papel importante.
En los รบltimos aรฑos, la aplicaciรณn de algoritmos de aprendizaje automรกtico en la
predicciรณn de precios del mercado de valores ha ganado fuerza. Wang y Wang (2017)
realizaron un estudio en el que utilizaron tรฉcnicas de aprendizaje automรกtico para
desarrollar un modelo predictivo de los precios del mercado de valores. Su enfoque arrojรณ
resultados prometedores, demostrando un alto nivel de precisiรณn en la predicciรณn de los
precios de las acciones. Predecir los precios de las acciones o de cualquier activo
financiero es una tarea compleja y desafiante.
Para investigadores Niederhoffer y Osborne (1966), los cambios en los precios
suelen ocurrir en direcciones opuestas con mรกs frecuencia que los cambios en la misma
direcciรณn. Esto pone de relieve la dificultad inherente a la predicciรณn precisa de los
movimientos de precios. Para abordar este desafรญo, comรบnmente se emplean mรฉtodos
supervisados. Estos mรฉtodos se basan en la disponibilidad de datos etiquetados, donde
se conoce en todo momento el precio futuro de un activo financiero. A medida que pasa
el tiempo, el conjunto de datos se actualiza constantemente con nuevos datos etiquetados,
lo que permite una predicciรณn mรกs precisa.
En esencia, predecir precios en los mercados financieros es una tarea compleja
debido a la frecuente ocurrencia de cambios en direcciones opuestas. Para superar este
desafรญo, se utilizan mรฉtodos supervisados, aprovechando datos etiquetados para
actualizar y mejorar continuamente las predicciones. Mediante el anรกlisis cuantitativo de
precios histรณricos y el uso de algoritmos de aprendizaje automรกtico, los investigadores
han logrado avances significativos en el desarrollo de modelos de predicciรณn precisos de
los precios del mercado de valores. El principal objetivo de estos mรฉtodos es identificar
patrones y tendencias en los precios histรณricos de activos financieros a travรฉs de anรกlisis
cuantitativos. Al analizar los movimientos de precios pasados, los investigadores y
analistas pretenden descubrir relaciones y correlaciones significativas que puedan
utilizarse para predecir precios futuros.
Otro uso del aprendizaje automรกtico en el รกmbito de los mercados financieros se
conoce como algo-trading o comercio algorรญtmico. En este proceso, se programan
Pรกg. 24
instrucciones especรญficas en el software para ejecutar รณrdenes de compra o venta. Al
incorporar algoritmos en esta prรกctica, los comerciantes pueden potencialmente
aumentar sus ganancias minimizando los gastos comerciales, al mismo tiempo que se
benefician de una mayor velocidad y frecuencia de las transacciones en comparaciรณn con
las operaciones manuales. Este enfoque ayuda a aliviar la influencia de la subjetividad
humana en las decisiones comerciales, haciendo que el proceso sea mรกs metรณdico y
sistemรกtico.
El algoritmo requiere parรกmetros especรญficos en sus instrucciones, incluido el
precio de compra o venta deseado, el volumen de instrumentos a operar y el vencimiento
de la orden. Si la orden es de compra, el precio indicado representa el precio mรกximo que
el inversor estรก dispuesto a pagar por el instrumento financiero. El algoritmo comprarรก
todos los instrumentos por debajo de este precio mรกximo, comenzando por los de menor
precio, hasta alcanzar el volumen deseado. Por el contrario, si la orden es de venta, el
precio indicado es el mรญnimo permitido, y el algoritmo venderรก a precios mayores o
iguales a ese precio indicado, empezando por el mรกs alto, hasta conseguir el volumen
solicitado.
Cualquier valor que no cumpla con las condiciones de precio permanecerรก en el
registro de รณrdenes pendientes hasta que expire la orden, momento en el cual la
instrucciรณn serรก eliminada del sistema. Esto asegura que la mรกquina siga condiciones
especรญficas para ejecutar la orden y enviarla al mercado financiero a travรฉs de la
plataforma del intermediario financiero. Este enfoque garantiza la rentabilidad y ayuda
a limitar las pรฉrdidas potenciales. Para proporcionar una comprensiรณn mรกs clara de cรณmo
funciona el comercio algorรญtmico, a continuaciรณn se incluye un grรกfico visual.
Pรกg. 25
Una de las aplicaciones mรกs importantes de la inteligencia artificial en el mundo
actual es el uso de chatbots, que son programas diseรฑados para mantener conversaciones
con personas en plataformas de mensajerรญa y esencialmente actรบan como reemplazos
robรณticos de la interacciรณn humana. Esta interacciรณn puede realizarse a travรฉs de texto o
audio, utilizando lenguaje natural. Los chatbots han revolucionado el servicio al cliente
al permitir interacciones personalizadas entre clientes y empresas, brindando a los
usuarios beneficios sociales, informativos y econรณmicos.
Asimismo, los chatbots estรกn disponibles las 24 horas del dรญa, los 7 dรญas de la
semana, lo que ofrece atenciรณn al cliente continua y reduce la necesidad de que los clientes
viajen fรญsicamente a los establecimientos fรญsicos. Ademรกs, dentro de las organizaciones se
implementan chatbots para ayudar a los trabajadores a resolver cualquier duda o
pregunta que puedan tener. En el sector financiero, los chatbots tienen un inmenso
potencial y pueden servir como asistentes de recursos humanos, asistentes de inteligencia
de mercado, asistentes de flujo de trabajo, asistentes de redes sociales, asistentes de
analistas financieros, asistentes de programaciรณn e incluso como embajadores de la
empresa Es de destacar que sรณlo el 20% del trabajo administrativo representa un
asombroso 85% del costo total para los bancos. Para 2022, se estima que los chatbots
generarรกn mรกs de 8 mil millones de dรณlares en ahorros de costos anuales (United
Consulting Group, 2018).
Los chatbots representan alrededor del 9,6% del suministro total de productos de
IA. Sin embargo, en la industria bancaria, se utilizan en aproximadamente el 33,9% de los
casos de uso de IA (Francรฉs Monedero, 2020). Esta importante dependencia de los
chatbots por parte de los bancos puede deberse a su deseo de presentarse como
innovadores y tecnolรณgicamente avanzados. Desafortunadamente, muchos bancos
carecen de una estrategia clara de IA. Ian Wilson, ex director de IA de HSBC, seรฑalรณ que
la pregunta mรกs comรบn en los bancos es sobre el futuro y el retorno de la inversiรณn, pero
no hay una respuesta satisfactoria para esto, lo que plantea un problema. Ademรกs, estos
programas de chatbot tienen una capacidad limitada para manejar consultas bรกsicas de
los clientes.
Debido a que el lenguaje humano es complejo, plantea un desafรญo para los chatbots
entablar conversaciones fluidas y coherentes. Sin embargo, el programa informรกtico
Eugene logrรณ un hito importante en 2014 al superar con รฉxito la prueba de Turing. Este
Pรกg. 26
avance marcรณ un importante punto de inflexiรณn, ya que permitiรณ a las mรกquinas utilizar
tรฉcnicas de aprendizaje automรกtico para entablar un diรกlogo significativo con los
humanos.
Inicialmente, el desarrollo de chatbots se basรณ en la experiencia de profesionales y
siguiรณ estรกndares establecidos. Si bien, a medida que pasรณ el tiempo, se introdujeron
proyectos hรญbridos que combinaban tรฉcnicas de aprendizaje automรกtico con enfoques
tradicionales. Actualmente, hay un cambio hacia chatbots que utilizan รบnicamente el
aprendizaje automรกtico. Estos sistemas avanzados de chatbot se entrenan continuamente
utilizando datos histรณricos, lo que les permite mejorar indefinidamente a medida que
acumulan mรกs informaciรณn.
El algoritmo empleado por estos chatbots estรก diseรฑado para identificar la
intenciรณn del usuario y extraer informaciรณn relevante de sus mensajes. Al evaluar el
problema del cliente, el sistema puede generar una respuesta adecuada. Esto se logra
analizando las soluciones mรกs comunes que se encuentran en el conjunto de datos y
devolviรฉndolas al sistema mediante el aprendizaje supervisado. En los casos en los que
hay mรบltiples respuestas potenciales, el chatbot emplea tรฉcnicas de aprendizaje profundo
para evaluar el contexto de la conversaciรณn y selecciona la respuesta mรกs adecuada en
funciรณn de la entrada actual.
El funcionamiento de los chatbots implica la utilizaciรณn de diversas tรฉcnicas. Para
facilitar la interacciรณn con los usuarios, la interfaz del software se basa en la aplicaciรณn de
Procesamiento del Lenguaje Natural (NLP). La NLP, al ser una subdivisiรณn de la
inteligencia artificial, abarca la capacidad de las mรกquinas para comprender el lenguaje
humano. Este campo se centra en procesar la informaciรณn recibida de una manera que
permita a las mรกquinas interpretarla de forma eficaz. Por otro lado, el backend,
especรญficamente el procesador de entrada frontend, utiliza tรฉcnicas de aprendizaje
supervisado y aprendizaje profundo para mejorar su funcionalidad.
Espaรฑa ha ostentado el tรญtulo de ser el paรญs mรกs bancarizado del mundo, con un
impresionante nรบmero de sucursales por persona, con la asombrosa cifra de 95,87
sucursales por cada 100.000 personas (Camino y de Garcillรกn Lรณpez-Rua, 2014). Sin
embargo, esta distinciรณn estรก experimentando gradualmente una transformaciรณn, todo
gracias a la llegada de tecnologรญas innovadoras. Una famosa cita de Bill Gates de 1994
Pรกg. 27
destaca este cambio de perspectiva: "Necesitamos el sistema financiero, pero no los
bancos". La apariciรณn de aplicaciones mรณviles y servicios automatizados en lรญnea estรก
revolucionando el panorama financiero, ofreciendo una experiencia altamente
personalizada y adaptada a los clientes. Estas innovadoras plataformas financieras,
acertadamente denominadas "roboadvisors", estรกn allanando el camino hacia una nueva
era de la banca.
Esta herramienta utiliza algoritmos de aprendizaje automรกtico para ofrecer
asesoramiento de inversiรณn a los clientes. Al interactuar con el cliente y analizar sus
ingresos y gastos pasados, la mรกquina puede sugerir planes de ahorro e inversiรณn. El
cliente crea un perfil y responde una serie de preguntas, lo que permite que el programa
informรกtico comprenda su perfil de riesgo, preferencias de activos y mรกs. Utilizando esta
informaciรณn, el robo-advisor aplica algoritmos para brindar una recomendaciรณn
personalizada. La integraciรณn de los robo-advisors en el ciclo financiero bancario permite
una mejor planificaciรณn financiera que se alinea con el ciclo de vida y el perfil de riesgo
del cliente, ayudรกndole a alcanzar sus objetivos financieros.
Al implementar este enfoque, la utilizaciรณn de dicha tecnologรญa tiene el potencial
de disminuir significativamente la cantidad de oficinas operativas necesarias para
atender a los clientes. Ademรกs, los robo-advisors ofrecen una oportunidad invaluable
para que una parte sustancial de la poblaciรณn, que tal vez no posea conocimientos
financieros fundamentales, participe en inversiones, ahorros e incluso planificaciรณn de la
jubilaciรณn.
El campo del anรกlisis y reconocimiento de documentos (DAR) se centra en la
extracciรณn automatizada de informaciรณn de los documentos, con el objetivo de identificar
las cuestiones clave que deben abordarse para la evaluaciรณn, resaltando asรญ la informaciรณn
mรกs significativa. Segรบn Marinai y Fujisawa (2007), la integraciรณn de tรฉcnicas de
aprendizaje automรกtico (ML) en este proceso de anรกlisis es muy ventajosa. El proceso de
anรกlisis de documentos consta de tres fases principales: recopilaciรณn y almacenamiento
de informaciรณn, preprocesamiento de datos y aplicaciรณn de diversas tรฉcnicas de anรกlisis.
La fase de procesamiento de la informaciรณn es crucial porque los documentos
normalmente contienen datos no estructurados y carecen de una organizaciรณn definida.
Para abordar esto, se emplean tรฉcnicas de simplificaciรณn, como reducir las palabras a sus
raรญces o eliminar palabras irrelevantes que no contribuyen al significado general de las
Pรกg. 28
oraciones. Luego, en la fase de anรกlisis se aplican diferentes tรฉcnicas para escudriรฑar el
texto. Esto puede implicar un anรกlisis cuantitativo, en el que se examina la repeticiรณn de
ciertas palabras dentro del mismo documento para medir la importancia del tema en el
texto presentado, o puede abarcar un anรกlisis de sentimientos, entre otros mรฉtodos.
Esta herramienta cambia las reglas del juego en el sector financiero, ya que permite
escanear y extraer informaciรณn crucial de documentos extensos, brindando inmensos
beneficios a travรฉs de la implementaciรณn de tecnologรญa de aprendizaje automรกtico. Al
utilizar la plataforma COiN, JP Morgan ha revolucionado sus operaciones al recuperar
sin esfuerzo datos vitales de acuerdos de crรฉdito comerciales anuales en cuestiรณn de
segundos. Esto ha dado como resultado un asombroso ahorro de tiempo de 360.000 horas
al aรฑo, que de otro modo se gastarรญan en tediosas revisiones manuales. La utilizaciรณn de
esta herramienta muestra el increรญble potencial del aprendizaje automรกtico para abordar
de manera eficiente las necesidades de la industria financiera.
Las ventajas ML en el sistema financiero
En el pasado, las instituciones financieras utilizaban el precio, la velocidad y el
acceso para atraer clientes. Si bien, con la llegada de la globalizaciรณn, este enfoque ha
cambiado. Ahora, la capacidad de analizar grandes cantidades de datos y utilizar
algoritmos para identificar los productos que mejor satisfacen las necesidades de los
clientes es crucial para obtener una ventaja competitiva. Las expectativas de los clientes
tambiรฉn han evolucionado, con una demanda creciente de ofertas diversas y
personalizadas. Como resultado, la estandarizaciรณn ya no es una fuente importante de
ingresos. En cambio, la atenciรณn se centra en ofrecer productos altamente personalizados,
donde la inteligencia artificial (IA) juega un papel crucial. Este cambio en la industria ha
llevado a que los grandes operadores tradicionales se conviertan en proveedores de
servicios de IA.
El aprendizaje automรกtico permite la segmentaciรณn de clientes, facilitando asรญ el
desarrollo de estrategias personalizadas basadas en sus caracterรญsticas รบnicas. Es
importante que los individuos dentro del mismo segmento posean similitudes entre ellos
pero tambiรฉn muestren diferencias en comparaciรณn con otros grupos. Al implementar
diversas estrategias para varios segmentos, las empresas pueden ofrecer experiencias mรกs
personalizadas a sus clientes.
Pรกg. 29
Como resultado, la implementaciรณn de tecnologรญa de aprendizaje automรกtico
otorgarรก una importante ventaja competitiva a las instituciones financieras que la
adopten, permitiรฉndoles ofrecer niveles incomparables de servicio al cliente
personalizado. Esta tecnologรญa de vanguardia permite a estas entidades adaptar sus
servicios a las preferencias y necesidades individuales, estableciendo asรญ una conexiรณn
mรกs fuerte con su clientela. Al aprovechar los algoritmos de aprendizaje automรกtico, las
empresas del sector financiero pueden obtener informaciรณn valiosa sobre el
comportamiento de los clientes, anticipar sus requisitos รบnicos y ofrecer soluciones
personalizadas de forma proactiva. Con la capacidad de analizar grandes cantidades de
datos de manera eficiente y precisa, el aprendizaje automรกtico equipa a estas entidades
con las herramientas para mejorar la satisfacciรณn y lealtad del cliente. En consecuencia,
las organizaciones que adopten el aprendizaje automรกtico en la industria financiera no
solo prosperarรกn en un mercado altamente competitivo, sino que tambiรฉn revolucionarรกn
la forma en que interactรบan y atienden a sus clientes.
Las instituciones financieras pueden automatizar tareas repetitivas o tareas que
aportan menos valor mediante tรฉcnicas como el procesamiento del lenguaje natural o el
reconocimiento de imรกgenes. Por ejemplo, las preguntas mรกs frecuentes se pueden
responder utilizando estas tรฉcnicas. Amazon ha implementado mรกs de cien mil robots en
todo el mundo. Segรบn el director de operaciones, Dave Clark, el objetivo era que las
mรกquinas realizaran tareas monรณtonas, permitiendo a los humanos realizar trabajos
mentalmente interesantes. En lugar de humanos versus mรกquinas, la IA se trata de
humanos mejorados por mรกquinas, como afirman Jubraj, Graham y Ryan. La IA tiene el
potencial de mejorar las habilidades humanas y optimizar el tiempo de los empleados de
la empresa liberรกndolos de tareas repetitivas y permitiรฉndoles centrarse en tareas mรกs
valiosas.
A lo largo de la historia, los economistas han sostenido la creencia de que las
mรกquinas poseen el potencial de reemplazar a mรบltiples trabajadores humanos en
diversas industrias. Sin embargo, su argumento final ha sido que tales avances
tecnolรณgicos conducirรญan a un aumento significativo en los niveles de productividad, lo
que en consecuencia resultarรญa en un aumento sustancial tanto del ingreso como del
producto interno.
Pรกg. 30
Como resultado, la cadena de valor sufrirรก una transformaciรณn significativa en
tรฉrminos de generaciรณn de beneficios. Con el tiempo, habrรก un cambio notable en la
distribuciรณn del valor hacia tareas que exigen experiencia especializada, mientras que los
servicios que pueden ejecutarse sin la participaciรณn de profesionales experimentados
serรกn menos valorados por la sociedad. La razรณn detrรกs de este cambio de percepciรณn
radica en la llegada del aprendizaje automรกtico, que permite realizar estas tareas a un
costo considerablemente reducido.
Dentro de la industria financiera, si se automatizaran las tareas mรกs monรณtonas,
se liberarรญa una cantidad significativa de tiempo para los equipos de gestiรณn financiera.
Segรบn Chui, Manyika y Miremadi (2015), esto podrรญa representar potencialmente mรกs del
20% de su carga de trabajo total. Al delegar responsabilidades como la recopilaciรณn,
verificaciรณn y consolidaciรณn de datos a las mรกquinas, los profesionales de este campo
tendrรญan la oportunidad de concentrar sus esfuerzos en aspectos mรกs cruciales como el
anรกlisis y la toma de decisiones. El nivel de automatizaciรณn de tareas serรญa directamente
proporcional a la medida en que el trabajo de un empleado comprenda actividades
rutinarias.
Cuando se trata de trabajadores responsables de aprobar prรฉstamos hipotecarios,
el aprendizaje automรกtico se harรก cargo de la tarea repetitiva de recopilar y analizar datos.
Esto permitirรก a los empleados gestionar un mayor nรบmero de solicitudes de prรฉstamos
y brindar asesoramiento a un mayor nรบmero de clientes. Como resultado, los empleados
podrรกn hacer un uso mรกs eficiente de su tiempo aprovechando el anรกlisis de datos
realizado por las mรกquinas.
Por el contrario, los asesores financieros darรกn prioridad a comprender las
necesidades de sus clientes y formular diversas tรกcticas para lograr sus objetivos,
dedicando comparativamente menos tiempo a examinar el estado financiero de los
clientes. Las mรกquinas agilizarรกn el procesamiento y evaluaciรณn de los datos de cada
cliente, tarea que antes realizaban empleados humanos del sector.
En un estudio realizado por McKinsey en 2018, se descubriรณ que a pesar de la
automatizaciรณn de las tareas manuales, la creaciรณn de nuevos puestos de trabajo superarรก
el nรบmero de puestos de trabajo reemplazados. El estudio sugiere que los beneficios de
la inteligencia artificial irรกn mรกs allรก de la simple sustituciรณn de puestos de trabajo, ya
Pรกg. 31
que solo una fracciรณn de los beneficios totales procederรก de la sustituciรณn de puestos de
trabajo (Francรฉs Monedero, 2020).
Asรญ en la medida que las empresas adopten la IA, habrรก un cambio en las
habilidades necesarias para los puestos de trabajo. La demanda de habilidades fรญsicas
disminuirรก, lo que resultarรก en un exceso de oferta, mientras que la demanda de
habilidades cognitivas aumentarรก. En consecuencia, habrรก un aumento de los salarios. El
auge de las mรกquinas en el sector bancario, segรบn informa Bloomberg, redefinirรก los roles
y funciones de los empleados bancarios. Esto ha generado una gran demanda de
candidatos con experiencia en inteligencia artificial, aprendizaje automรกtico y ciencia de
datos en el sector financiero, segรบn portales de empleo como Glassdoor y Linkedin
(Francรฉs Monedero, 2020).
De similar forma, a medida que ciertas tareas en el sector financiero se
automaticen, habrรก una mayor necesidad de puestos centrados en la gestiรณn de relaciones
con los clientes (CRM) para brindar un servicio mรกs personalizado a los clientes. Si bien
las mรกquinas pueden generar recomendaciones, son los empleados humanos quienes
mejoran la experiencia del cliente a travรฉs de interacciones personalizadas. Por tanto, la
cooperaciรณn entre la inteligencia emocional humana y la eficiencia de las mรกquinas es
crucial en esta industria.
En actividades que requieren toma de decisiones, la objetividad es crucial. El
aprendizaje automรกtico ofrece un mayor nivel de precisiรณn, ya que puede analizar datos
de diversas fuentes, en diferentes formatos, y verificar su valide. Esto reduce la influencia
de la subjetividad de un individuo en la toma de decisiones. Un ejemplo de la importancia
de la objetividad en las actividades empresariales es la auditorรญa. Cuando las empresas
alcanzan un determinado nivel de capital, estรกn obligadas por ley (en Espaรฑa, por
ejemplo) a someterse a auditorรญas externas realizadas por auditores independientes. Estos
auditores no deben tener ninguna asociaciรณn con las operaciones de la empresa. Esto
garantiza la confiabilidad de los estados financieros y elimina los conflictos de intereses.
Esta objetividad es particularmente valiosa en sectores como el financiero, donde
la toma de decisiones implica elegir entre mรบltiples opciones que impactan directamente
el bienestar financiero de los clientes. En tales casos, es necesario disponer de informaciรณn
completa y seleccionar estrategias con la mรกxima objetividad. Los asesores humanos, por
Pรกg. 32
otro lado, son subjetivos, propensos a errores y consumen mucho tiempo. Por el
contrario, los algoritmos son objetivos, mรกs precisos, mรกs rรกpidos, eficientes y pueden
funcionar 24 horas al dรญa, 7 dรญas a la semana.
El aprendizaje automรกtico procesa datos con precisiรณn. Por ejemplo, cuando se
realiza un anรกlisis cualitativo de la probabilidad de incumplimiento crediticio, la
informaciรณn de entrada utilizada para evaluar el riesgo crediticio de un cliente es a
menudo subjetiva y vaga. Abordar esta cuestiรณn es crucial para garantizar una mayor
objetividad y cumplimiento de las directrices establecidas por el Banco de Pagos
Internacionales (BPI). El BPI es responsable de mantener la estabilidad del sistema
financiero y monetario internacional. En 2015, el BPI publicรณ once principios de
orientaciรณn supervisora sobre el riesgo crediticio y la contabilizaciรณn de las pรฉrdidas
crediticias esperadas. El principio nรบmero dos enfatiza la importancia de que los bancos
adopten y se adhieran a metodologรญas sรณlidas para evaluar y calcular el riesgo crediticio
en todas las exposiciones crediticias (Banco de Pagos Internacionales, 2015).
Tradicionalmente, los bancos recopilaban informaciรณn de los solicitantes de
prรฉstamos a travรฉs de formularios de solicitud y otras fuentes para evaluar si el prรฉstamo
debรญa otorgarse y sus tรฉrminos. Luego, los empleados analizarรญan esta informaciรณn y
tomarรญan una decisiรณn. Sin embargo, no era raro que diferentes asesores llegaran a
conclusiones diferentes sobre si se debรญa conceder o no un prรฉstamo. Al utilizar el
aprendizaje automรกtico, se puede crear un modelo de calificaciรณn crediticia
estandarizado, garantizando que la decisiรณn sea universal y no dependa del anรกlisis de
un individuo.
Los datos del aprendizaje automรกtico se caracterizan por tres factores principales:
volumen, variedad y velocidad.
โ€ข El volumen de datos ha aumentado significativamente debido a la amplia
cobertura y conexiones de Internet, lo que plantea el desafรญo de almacenar
cantidades tan grandes de informaciรณn.
โ€ข La variedad de fuentes de medios, diversas representaciones y disponibilidad de
datos hacen que su anรกlisis sea una tarea compleja.
โ€ข Ademรกs, la velocidad a la que se generan los datos ha aumentado
exponencialmente con el avance de la difusiรณn de datos desde diversos
Pรกg. 33
dispositivos. Es fundamental analizar y almacenar estos datos de manera eficiente
y rรกpida para evitar incurrir en costos de oportunidad, ya que puede no siempre
ser factible analizar cada pieza de informaciรณn.
El concepto de Internet de las Cosas, comรบnmente conocido como IoT, abarca la
conectividad y comunicaciรณn entre varios objetos y dispositivos a travรฉs de una red
privada o basada en Internet. Esta interconexiรณn permite una interacciรณn perfecta y el
intercambio continuo de datos entre estos dispositivos conectados. En consecuencia, el
gran volumen de datos que se transmiten, que incluye informaciรณn tanto cuantitativa
como cualitativa, es notablemente vasto.
Los dispositivos mรณviles han contribuido significativamente a la expansiรณn de las
operaciones y la acumulaciรณn de una gran cantidad de datos en el sector financiero. Para
aprovechar y extraer eficazmente informaciรณn valiosa de esta abundancia de datos, la
integraciรณn de algoritmos de aprendizaje automรกtico se ha vuelto esencial. Estos
algoritmos permiten el procesamiento de datos en tiempo real, facilitando asรญ la
recuperaciรณn inmediata de informaciรณn valiosa. Esta innovadora incorporaciรณn de la
inteligencia artificial en el sector financiero ha revolucionado los procesos,
particularmente mediante la implementaciรณn de sistemas automรกticos de reconocimiento
de dรญgitos.
Asรญ se tiene que, los mercados financieros funcionan las 24 horas del dรญa y la
capacidad de procesar datos comerciales rรกpidamente es crucial para una gestiรณn
comercial eficaz. Como resultado, la tecnologรญa de aprendizaje automรกtico permite a las
personas tomar decisiones en tiempo real, lo que les permite posicionarse
estratรฉgicamente y prever resultados potenciales en los dinรกmicos mercados financieros.
En la misma lรญnea, los cambios mencionados, que se caracterizan por su rapidez y
amplitud, tienen un profundo impacto en las operaciones y funciones del Banco de
Espaรฑa. Estos cambios no solo influyen en los procesos internos del banco sino que
tambiรฉn tienen implicaciones significativas para sus funciones analรญticas y de supervisiรณn
(Banco de Espaรฑa, 2020). El sector financiero se enfrenta constantemente a regulaciones
y estรกndares de presentaciรณn de informes novedosos, lo que requiere la capacidad de
adaptarse rรกpidamente a estos requisitos en evoluciรณn.
Pรกg. 34
El aprendizaje automรกtico no sรณlo acelera el procesamiento de los datos y la
informaciรณn de un cliente, sino que tambiรฉn acelera la capacitaciรณn de los empleados
bancarios, lo que resulta en una mayor productividad y rentabilidad para las
organizaciones. Al automatizar las tareas, se reduce el tiempo necesario para su ejecuciรณn,
acelerando asรญ la curva de aprendizaje de los nuevos empleados. Ademรกs, la utilizaciรณn
del aprendizaje automรกtico infunde confianza en el trabajo de estos nuevos empleados,
ya que estรกn respaldados por la confiabilidad de los algoritmos.
En la actualidad, existe una disparidad en la accesibilidad a los servicios sanitarios
y financieros, y solo determinadas clases sociales tienen fรกcil acceso a ellos. Sin embargo,
la utilizaciรณn del aprendizaje automรกtico puede revolucionar la eficiencia de estos
servicios y permitirles llegar a una gama mรกs amplia de personas. Esto es particularmente
significativo cuando se consideran prรฉstamos pequeรฑos, como los requeridos por las
pequeรฑas empresas, donde el monto relativamente bajo del prรฉstamo y el riesgo potencial
involucrado para los prestamistas no justifican los gastos asociados con la evaluaciรณn de
la solvencia del prestatario. En tales casos, la integraciรณn de tรฉcnicas de aprendizaje
automรกtico ofrece una soluciรณn รณptima, que permite que una mayor parte de la poblaciรณn
aproveche los servicios financieros.
Por el contrario, en los casos en que una parte de las tareas estรฉ automatizada, las
comisiones que reciben los asesores financieros se reducirรญan, lo que aumentarรญa el
atractivo para una clientela mรกs amplia. Ademรกs, si bien adoptar el aprendizaje
automรกtico (ML) tiene ventajas innegables, es importante reconocer la existencia de
ciertos obstรกculos y complejidades que presenta.
Los desafรญos de la ML
La incorporaciรณn de la inteligencia artificial (IA) en las empresas ha creado la
necesidad de contratar cientรญficos de datos que posean la experiencia necesaria. Aun
cuando, debido a la intensa competencia, encontrar personal con las habilidades
adecuadas se ha convertido en una tarea desafiante. Actualmente, existe una mayor
demanda de estas personas calificadas que la oferta disponible. Como resultado, las
empresas que deseen implementar el aprendizaje automรกtico en sus servicios deben
hacer todo lo posible no sรณlo para atraer, sino tambiรฉn para retener a estos especialistas.
Pรกg. 35
Vale la pena seรฑalar que el 90% de las 1.600 startups de IA en Europa se centran
principalmente en ofrecer servicios de IA a otras empresas. Esto indica que determinadas
empresas optan por subcontratar sus servicios de aprendizaje automรกtico a proveedores
externos. Para las empresas en esta situaciรณn, los factores claves del รฉxito residen en
integrar eficazmente estos servicios externalizados y establecer una relaciรณn de largo
plazo con sus proveedores. Dado el nรบmero limitado de profesionales en este campo, si
las empresas del sector financiero dependieran en gran medida del aprendizaje
automรกtico para sus operaciones, podrรญa aumentar su riesgo operativo e incluso generar
un riesgo sistรฉmico.
Un factor crucial para la implementaciรณn exitosa de la IA es la posesiรณn de amplios
conjuntos de datos para el desarrollo de algoritmos, y garantizar el acceso a estos datos
es esencial. Ademรกs, la cantidad de esfuerzo humano necesaria para recopilar estos datos
es inmensa, ya que antes implicaba una cantidad significativa de tiempo para la
extracciรณn, pero ahora se centra mรกs en la preparaciรณn. Esto es particularmente
importante debido a las caracterรญsticas especรญficas de los datos utilizados en el
aprendizaje automรกtico, como el volumen, la variedad y la velocidad, que requieren un
proceso de captura de datos eficiente. Sin embargo, el sector financiero no enfrenta este
desafรญo porque ya posee una vasta base de datos acumulada con el tiempo debido al
sistema contable y los requisitos regulatorios. Estos registros histรณricos, que inicialmente
no fueron plenamente reconocidos por su potencial, ahora tienen un valor significativo.
Tambiรฉn, el sector financiero ha evolucionado hacia una industria multicanal, lo que se
ha traducido en un mayor volumen de datos generados desde diversos dispositivos en
un perรญodo de tiempo mรกs corto a travรฉs de transacciones monetarias. Como resultado,
el sector financiero se enfrenta ahora a una cantidad tan enorme de datos que se ha hecho
necesario emplear tรฉcnicas para analizarlos.
Por el contrario, el aprendizaje automรกtico tiene el potencial de incorporar sesgos
de datos histรณricos, incluidos los relacionados con el gรฉnero y la raza. Como resultado,
cuando se trata de brindar servicios financieros a grupos minoritarios, estos algoritmos
pueden no ser los mรกs adecuados. La precisiรณn a la hora de clasificar personas con
diferentes tonos de piel, ya sean hombres o mujeres, varรญa significativamente debido a la
presencia predominante de personas de piel clara en los conjuntos de datos. En esencia,
los propios algoritmos de aprendizaje automรกtico pueden ser imparciales, pero no se
Pรกg. 36
puede ignorar la naturaleza sesgada de los datos con los que se entrenan. Para garantizar
la equidad y la transparencia en la toma de decisiones algorรญtmicas para las instituciones
financieras, es crucial adoptar conjuntos de datos diversos e inclusivos, asรญ como emplear
los mรฉtodos de capacitaciรณn y enfoques de desarrollo de algoritmos mรกs efectivos.
Un ejemplo lo constituye Amazon, que intentรณ desarrollar un algoritmo de
aprendizaje automรกtico con el objetivo de acelerar su proceso de selecciรณn de personal.
El objetivo principal era examinar los CV de las personas y excluir a aquellos que, segรบn
los datos histรณricos de la empresa, era poco probable que fueran contratados. El algoritmo
utilizรณ todos los CV de la dรฉcada anterior, sin tener en cuenta el gรฉnero. Sin embargo,
surgiรณ un problema notable cuando se descubriรณ que el modelo frecuentemente ignoraba
a las mujeres como candidatas potenciales debido a sesgos inherentes en el conjunto de
datos, que favorecรญan la contrataciรณn de hombres. Tras un examen mรกs detenido, se
descubriรณ que el algoritmo pasaba por alto los CV que contenรญan los tรฉrminos "mujer" o
"femenino" durante el proceso de selecciรณn. Otro ejemplo que destaca las deficiencias de
los sistemas algorรญtmicos es la implementaciรณn por parte de Google de un algoritmo de
reconocimiento facial que identificรณ incorrectamente a los individuos negros como
gorilas. Este etiquetado errรณneo fue consecuencia de observaciones insuficientes de caras
negras en el conjunto de datos utilizado para entrenar el modelo.
El uso de algoritmos en el sector financiero, particularmente en actividades como
ofrecer crรฉdito o negociar activos financieros, tiene el potencial de dar lugar a casos de
agregaciรณn y, con el tiempo, podrรญa conducir a un comportamiento procรญclico.
La competencia
Se espera que el surgimiento de la economรญa de la IA cree un panorama
competitivo que favorezca a las instituciones establecidas con importantes cuotas de
mercado e innovadores รกgiles. En consecuencia, existe la preocupaciรณn de que esto pueda
conducir a una situaciรณn monopolรญstica en la que las grandes instituciones financieras
tradicionales dominen el mercado, ya que las pequeรฑas y medianas empresas pueden
carecer de la inversiรณn necesaria para mantenerse al dรญa con los avances tecnolรณgicos. Esta
preocupaciรณn estรก respaldada por un estudio realizado por Edelman y el Foro Econรณmico
Mundial en 2019, que encontrรณ que el 54% del pรบblico en general y el 43% de los lรญderes
tecnolรณgicos creen que la IA tendrรก implicaciones negativas para las personas mรกs
Pรกg. 37
vulnerables, mientras que el 67% y El 75% respectivamente prevรฉ que beneficiarรก
principalmente a los mรกs ricos. Estos hallazgos resaltan la posibilidad de que surjan
desequilibrios como resultado de la economรญa de la IA (Francรฉs Monedero, 2020).
La brecha entre las empresas que optan por implementar el aprendizaje
automรกtico y las que no seguirรกn creciendo a medida que las primeras inviertan mรกs en
tecnologรญa de aprendizaje automรกtico y recopilen mรกs datos. Es fundamental que las
empresas se anticipen a este cambio e incorporen el aprendizaje automรกtico en sus
operaciones. De no hacerlo, estas empresas podrรญan verse expulsadas del mercado debido
a la intensa competencia. En consecuencia, habrรก un cambio en el panorama competitivo,
lo que requerirรก nuevos factores para lograr el รฉxito. El aprendizaje automรกtico acelerarรก
enormemente los procesos comerciales, lo que conducirรก a ciclos mรกs rรกpidos de
innovaciรณn, adopciรณn y consumo. Esta aceleraciรณn ha reducido histรณricamente el tiempo
que las grandes empresas siguen siendo lรญderes del mercado. Es probable que el
aprendizaje automรกtico proporcione una ventaja competitiva, creando potencialmente un
monopolio para las grandes empresas, dejando solo a un pequeรฑo grupo de
competidores.
El accionar
Las empresas enfrentan dificultades al intentar aplicar algoritmos que fueron
desarrollados para situaciones especรญficas a otros casos similares pero diferentes. Este
problema surge porque el uso de algoritmos en datos con los que no fueron entrenados
originalmente puede crear problemas. Para superar este desafรญo, es necesario desarrollar
algoritmos que puedan aplicarse en un contexto mรกs amplio. Esto se puede lograr
incorporando datos heterogรฉneos, que consisten en observaciones de varios escenarios.
En 2012, Knight Capital, una empresa especializada en negociaciรณn de acciones,
desarrollรณ un programa de software diseรฑado especรญficamente para negociar valores de
acciones en la Bolsa de Nueva York. Sin embargo, se produjo un desafortunado fallo
informรกtico que provocรณ que la empresa sufriera una asombrosa pรฉrdida de 440 millones
de dรณlares en tan solo 45 minutos. Afortunadamente, la empresa reconociรณ rรกpidamente
el problema y detuvo rรกpidamente el funcionamiento del algoritmo. El algoritmo
participaba constantemente en la compra y venta de millones de acciones, lo que provocรณ
un aumento significativo de la demanda y, posteriormente, elevรณ los precios de las
Pรกg. 38
acciones. En consecuencia, las acciones se sobrevaluaron, lo que resultรณ en pรฉrdidas
financieras sustanciales para la empresa (Harford, 2012). Aunque el algoritmo habรญa sido
programado para identificar y comprar acciones infravaloradas, no tuvo en cuenta el
hecho de que comprar una gran cantidad de acciones crearรญa un aumento en la demanda,
inflando asรญ sus precios y anulando su estado infravalorado inicial.
Legislaciรณn y รฉtica
La ciberseguridad es fundamental para el funcionamiento de la economรญa digital
y tiene como objetivo salvaguardar a los usuarios, activos y recursos digitales (como
redes, equipos y contenidos) del uso no autorizado en el entorno cibernรฉtico. Toda
comunicaciรณn involucra un remitente, un receptor y un mensaje transmitido. Hay cuatro
propiedades que garantizan la confianza o seguridad digital:
โ€ข autenticidad (verificar que el mensaje recibido fue enviado por el remitente
previsto),
โ€ข integridad (garantizar que el mensaje recibido no ha sido alterado),
โ€ข confidencialidad (garantizar que el mensaje sรณlo puede ser leรญdo por destinatario
previsto), y
โ€ข el no repudio (evitar que el remitente niegue su autorรญa del mensaje).
La criptografรญa, un campo de las matemรกticas, se ha utilizado durante mucho
tiempo en contextos militares. El cifrado implica transformar los datos originales en un
formato ininteligible utilizando un algoritmo de cifrado y una clave, mientras que el
descifrado invierte este proceso para recuperar los datos originales utilizando un
algoritmo y una clave de descifrado. En contextos histรณricos, la criptografรญa sรณlo
proporcionaba confidencialidad a travรฉs de tรฉcnicas como la permutaciรณn de caracteres,
la sustituciรณn monoalfabรฉtica o la sustituciรณn polialfabรฉtica. No habรญa forma de verificar
la autenticidad del mensaje ni garantizar su integridad durante la transmisiรณn. Se
depositรณ confianza en el mensajero y en la entrega del mensaje. Sin embargo, los
protocolos criptogrรกficos modernos se basan en principios matemรกticos y herramientas o
algoritmos criptogrรกficos para garantizar las cuatro propiedades criptogrรกficas:
autenticidad, integridad, confidencialidad y no repudio.
Pรกg. 39
Algoritmos o herramientas criptogrรกficas:
โ€ข La criptografรญa simรฉtrica, tambiรฉn conocida como algoritmo de clave secreta,
implica el uso de una clave secreta compartida conocida por todas las entidades
autorizadas para cifrar y descifrar datos. Este tipo de criptografรญa requiere un
proceso computacional de moderado a intenso. Su caracterรญstica inherente es la
capacidad de garantizar la confidencialidad.
โ€ข La criptografรญa asimรฉtrica, tambiรฉn conocida como algoritmo de clave pรบblica,
implica el uso de dos claves que estรกn interconectadas pero distintas entre sรญ. Una
clave es privada y la genera una autoridad certificadora especรญficamente para el
ciudadano individual, mientras que la otra clave es pรบblica y la genera la
autoridad certificadora utilizando la clave privada del ciudadano. La clave privada
se utiliza para cifrar datos que sรณlo se pueden descifrar utilizando su clave pรบblica
correspondiente. Del mismo modo, los datos cifrados con la clave pรบblica sรณlo
podrรกn descifrarse utilizando su correspondiente clave privada. A diferencia de la
criptografรญa simรฉtrica, la criptografรญa asimรฉtrica requiere mรกs recursos
computacionales. Las caracterรญsticas inherentes de este enfoque criptogrรกfico
incluyen garantizar la autenticidad y mantener la confidencialidad.
โ€ข La criptografรญa de funciรณn hash, tambiรฉn conocida como algoritmos criptogrรกficos
hash, es un tipo de algoritmo que opera sin necesidad de una clave y genera un
resumen digital de los datos originales. Este mรฉtodo criptogrรกfico implica un
proceso de cรกlculo moderadamente complejo. Las funciones hash poseen la
caracterรญstica inherente de garantizar la integridad de los datos, lo que significa
que brindan seguridad mediante la utilizaciรณn de factores como conocimiento de
algoritmos, claves y sellos.
El uso de diferentes algoritmos criptogrรกficos en el sector financiero es crucial para
garantizar la seguridad. Si bien, cuando el aprendizaje automรกtico se incorpora a varias
entidades, la cuestiรณn de asignar responsabilidades se convierte en una consideraciรณn
importante. Por ejemplo, si se descubre que un algoritmo discrimina a un segmento
particular de la poblaciรณn y la entidad es demandada por prรกcticas discriminatorias,
determinar quiรฉn debe rendir cuentas se convierte en una preocupaciรณn clave. Este
aspecto debe abordarse antes de implementar el aprendizaje automรกtico.
Pรกg. 40
Segรบn la รฉtica aristotรฉlica, la responsabilidad requiere conocimiento y control, que
son difรญciles de lograr cuando se trata de tecnologรญa, particularmente de algoritmos.
Como resultado, la รฉtica en la tecnologรญa plantea un problema desafiante. A menudo
pasamos por alto la interacciรณn entre humanos y mรกquinas en las tecnologรญas financieras,
por lo que es crucial considerar este aspecto. El Foro Econรณmico Mundial (2018) afirma
que la empresa que utiliza el modelo es la responsable en รบltima instancia.
La humanidad
Como se indicรณ anteriormente, existe una amplia gama de perspectivas sobre las
consecuencias socioeconรณmicas de las tecnologรญas emergentes, y hay personas que
expresan una fuerte oposiciรณn a la colaboraciรณn con mรกquinas. En consecuencia, los
profesionales de los sectores bancario y comercial perciben la ausencia de una mentalidad
orientada a la innovaciรณn como el obstรกculo fundamental que obstaculiza la
implementaciรณn generalizada de la inteligencia artificial (IA) en el รกmbito bancario.
Para evitar que esta situaciรณn ocurra, es imperativo que las empresas garanticen la
integraciรณn del conocimiento adquirido mediante la utilizaciรณn de la IA en sus
operaciones diarias y en los comportamientos de sus empleados. En consecuencia, se
vuelve fundamental que la IA se arraigue profundamente en la cultura de la empresa,
llevando a la transformaciรณn de ciertos procedimientos dentro de la organizaciรณn.
Pรกg. 41
Capรญtulo 2
Anรกlisis descriptivo en el aprendizaje automรกtico
El aprendizaje automรกtico, considera una serie de situaciones en las que un
individuo mejora sus conocimientos o habilidades para completar una tarea; implica
sacar conclusiones a partir de informaciรณn especรญfica para construir una representaciรณn
adecuada de algรบn aspecto importante de la realidad o de algรบn proceso. Una ejemplo
comรบn en el campo del aprendizaje automรกtico, en inteligencia artificial, es ver la
resoluciรณn de problemas como un tipo de aprendizaje que incluye, la capacidad de
reconocer la situaciรณn problemรกtica y reaccionar de acuerdo con una estrategia
aprendida.
Hoy en dรญa, la mayor diferencia que se puede hacer entre los animales y los
mecanismos de resoluciรณn de problemas es que algunos animales pueden mejorar su
desempeรฑo en mรบltiples tareas resolviendo un problema particular. Este enfoque supone
que un agente autรณnomo podrรก realizar la misma tarea de mรบltiples maneras, si es posible
y dependiendo de las circunstancias. Debe poder tomar decisiones sobre el curso de
acciรณn mรกs apropiado para resolver problemas y cambiar esas decisiones segรบn lo
requieran las condiciones.
Por este motivo, una de las principales tareas de esta direcciรณn es crear sistemas
capaces de adaptarse con flexibilidad a nuevas situaciones y aprender gracias a la
resoluciรณn del problema (o problemas) encontrados sin formaciรณn previa. El aprendizaje
automรกtico, tambiรฉn conocido como aprendizaje artificial. es un รกrea de gran interรฉs en
el campo de la inteligencia artificial. En otros campos, como la biologรญa, la psicologรญa y la
filosofรญa, la naturaleza del aprendizaje tambiรฉn se ha estudiado en relaciรณn con los
sistemas biolรณgicos y especialmente con los humanos.
Comprender el aprendizaje (como el aprendizaje humano) de una manera que
permita a las computadoras reproducir aspectos de ese comportamiento es un objetivo
muy ambicioso. Aunque algunos investigadores tambiรฉn han explorado esta posibilidad
utilizando otros animales como modelos, los resultados han sido pobres. Como se
mencionรณ, el aprendizaje es un tรฉrmino muy general que se refiere a la forma o formas
Pรกg. 42
en que un animal (o mรกquina) aumenta sus conocimientos y mejora sus habilidades en el
entorno.
El proceso de aprendizaje puede por tanto verse como un agente que produce
cambios en el sistema de aprendizaje (que, por otro lado, ocurren de forma lenta y
adaptativa) pueden ser reversibles o escalables. Estos cambios no sรณlo implican mejoras
en las habilidades y el desempeรฑo de las tareas, sino que tambiรฉn incluyen cambios en la
presentaciรณn de los hechos conocidos. En este contexto, se hace referencia al sistema de
aprendizaje automรกtico (o alumno) como un artefacto (o conjunto de algoritmos), que,
para resolver problemas, toma decisiones basadas en la experiencia acumulada, en el caso
previamente resuelto, para mejorar el rendimiento. Estos sistemas deben poder manejar
una amplia variedad de entradas, que pueden incluir datos incompletos, datos inciertos,
ruido, inconsistencia y mรกs.
El aprendizaje automรกtico puede verse como un proceso de dos pasos: En el
primer paso, el sistema selecciona las caracterรญsticas mรกs relevantes de un objeto o evento
y luego las compara con otras caracterรญsticas conocidas. La comparaciรณn se realiza
mediante un proceso de emparejamiento, y cuando existen diferencias significativas, el
sistema ajusta su modelo del objeto o evento en funciรณn del resultado del
emparejamiento. El aprendizaje es crucial porque frecuentemente resulta en mejoras en
el funcionamiento general de un sistema. Al adquirir conocimiento y comprensiรณn, las
personas y las organizaciones pueden lograr avances significativos en diversos aspectos
de sus operaciones, lo que en รบltima instancia conduce a mejores resultados y logros.
El aprendizaje en sistemas artificiales puede utilizar diversas tรฉcnicas para
aprovechar el poder computacional de una computadora, sin depender necesariamente
de procesos cognitivos humanos. Estas tรฉcnicas pueden implicar mรฉtodos matemรกticos
complejos, bรบsqueda en grandes bases de datos y la creaciรณn o modificaciรณn de
estructuras de representaciรณn del conocimiento para facilitar la identificaciรณn de
informaciรณn relevante.
Una de las razones principales por las que se diseรฑan y construyen sistemas de
aprendizaje automรกtico es la escasez de experiencia y la naturaleza limitada e incompleta
del conocimiento disponible en muchos dominios. A menudo resulta complicado
proporcionar a un agente todo el conocimiento necesario, ya que es una tarea compleja
Pรกg. 43
que requiere mucho tiempo y atenciรณn especializada para eliminar posibles errores. Por
el contrario, a los seres humanos les lleva varios aรฑos adquirir habilidades motoras y
lingรผรญsticas bรกsicas, e incluso mรกs tiempo para captar conceptos complejos, aprender
oficios, comprender convenciones culturales y absorber conocimientos histรณricos.
Ademรกs, el aprendizaje humano se personaliza para cada individuo.
Un รกrea de investigaciรณn que tiene gran importancia es la investigaciรณn sobre el
nivel de conocimiento adquirido por un alumno en funciรณn de su conocimiento existente.
Esto incluye examinar cรณmo el conocimiento previo del alumno puede contribuir al
proceso de hacer inferencias, circunscribir limitaciones y, en รบltima instancia, adquirir
nuevos conocimientos. Ademรกs, existe una fuerte motivaciรณn para aprovechar el poder
computacional de las computadoras como un activo valioso en la toma de decisiones. Si
un sistema es capaz de aprender de experiencias pasadas, de forma similar a como lo
hacen los humanos, entonces la utilidad y eficacia de dicha herramienta aumentan
significativamente.
Los procesos en las finanzas
Un escenario en el que la automatizaciรณn de procesos es particularmente crucial
es durante eventos inconvenientes como enfermedades o accidentes. Una empresa se
basa en la organizaciรณn de puestos profesionales y la adecuada distribuciรณn de
responsabilidades entre sus empleados. Cuando un puesto queda vacante, generalmente
se espera que otros miembros del equipo o individuos puedan cubrir temporalmente las
tareas necesarias hasta que se cubra el puesto. Si bien, en determinadas situaciones, como
durante una pandemia, varios trabajadores pueden enfermarse y dejar numerosas tareas
desatendidas. En tales casos, los procesos automatizados alivian significativamente la
gravedad de este problema, haciรฉndolo mรกs fรกcil tanto para las personas responsables
como para los delegados que deban intervenir durante situaciones de emergencia.
Para garantizar que las empresas operen sin problemas y de manera eficiente, han
establecido procesos para monitorear, regular y facilitar diversas actividades. Estos
procesos constan de una serie de acciones o tareas que se llevan a cabo para lograr un
resultado especรญfico. Gracias a las computadoras se pueden ejecutar procesos complejos
de manera eficiente, lo que lleva a un mejor desempeรฑo en la organizaciรณn. Por ejemplo,
Pรกg. 44
si necesita localizar una informaciรณn especรญfica en archivos, es mucho mรกs eficaz utilizar
un programa informรกtico que hacerlo manualmente.
De manera similar, tareas como anรกlisis estadรญstico, cรกlculos matemรกticos y
evaluaciones financieras se pueden completar mucho mรกs rรกpido a travรฉs de procesos
automatizados en comparaciรณn con depender de un equipo de trabajadores. Como
resultado, el uso de tecnologรญa y lenguajes de programaciรณn en los procesos de las
empresas es cada vez mรกs comรบn. Vale la pena seรฑalar que una parte importante de las
tareas realizadas por las instituciones financieras son de naturaleza regulatoria, es decir,
son encomendadas por organizaciones que supervisan el buen funcionamiento de estas
empresas.
En la amplia gama de empresas actuales, existe un tipo particular de empresa que
se centra principalmente en el รกmbito de la banca, los valores y los seguros. Estas
instituciones financieras brindan productos y servicios que estรกn legalmente clasificados
como financieros, lo que, en tรฉrminos mรกs simples, significa servicios relacionados con el
manejo y administraciรณn de los fondos de los clientes. El sector bancario es
particularmente reconocido, sin embargo, tambiรฉn hay instituciones financieras no
bancarias que desempeรฑan un papel importante, entre ellas los bancos populares de
ahorro y prรฉstamo, las compaรฑรญas de seguros, las casas de bolsa, los sistemas de ahorro
para el retiro, los fondos financieros, los fideicomisos y muchos otros.
Asimismo, la importancia que se otorga a la protecciรณn de los datos de los usuarios
es igualmente primordial, ya que cualquier violaciรณn de esta prรกctica constituye una
infracciรณn de la ley y conlleva graves consecuencias para los involucrados. La protecciรณn
de la informaciรณn personal se considera una obligaciรณn legal, destacando la importancia
de mantener la confidencialidad e integridad de los datos sensibles. Al respetar
regulaciones estrictas, estas instituciones no sรณlo garantizan la seguridad de los activos
financieros de las personas sino que tambiรฉn contribuyen activamente a la prevenciรณn de
actividades ilรญcitas como la financiaciรณn del terrorismo y el lavado de dinero.
En consecuencia, las estrictas regulaciones impuestas a las instituciones
financieras cuando manejan el dinero de otras personas sirven como una garantรญa crucial
para los consumidores, garantizando la adecuada gestiรณn y protecciรณn de sus fondos.
Estas regulaciones se extienden mรกs allรก de la seguridad monetaria para abarcar la
Pรกg. 45
salvaguardia de los datos de los usuarios, con sanciones severas por cualquier infracciรณn.
Al cumplir esta funciรณn, estas instituciones desempeรฑan un papel vital en la lucha contra
las prรกcticas ilรญcitas y el mantenimiento de la integridad del sistema financiero. Asรญ, para
garantizar el manejo adecuado de los fondos de otras personas, estas instituciones estรกn
sujetas a regulaciones estrictas que tienen como objetivo proteger a los consumidores y
prevenir casos de robo o actividades fraudulentas. Estas regulaciones no sรณlo se centran
en salvaguardar los activos financieros sino que tambiรฉn priorizan la seguridad y
privacidad de los datos de los usuarios.
Las instituciones financieras son establecimientos que acuerdan adquirir fondos y
capital de fuentes externas, como individuos, corporaciones u otras instituciones
financieras, a cambio de prestar servicios especรญficos. Uno de esos servicios lo ofrecen las
empresas de corretaje, que brindan a sus clientes la oportunidad de participar en la
compra y venta de acciones y otros instrumentos financieros dentro del mercado. Por el
contrario, las aseguradoras ofrecen protecciรณn y cobertura financiera en caso de pรฉrdidas
especรญficas. Asimismo, los bancos desempeรฑan un papel crucial a la hora de almacenar el
dinero de los clientes y facilitar el acceso a รฉl a travรฉs de tarjetas de dรฉbito o cajeros
automรกticos. Los fondos adquiridos de los clientes normalmente se asignan y gestionan
mediante diversos mรฉtodos de inversiรณn, siendo el enfoque principal prestar estos fondos
en forma de crรฉditos. Estos crรฉditos pueden servir como apoyo a inversiones o como
soluciรณn a desafรญos financieros imprevistos. Las inversiones pueden abarcar una amplia
gama de actividades, desde utilizar una pequeรฑa cantidad de dinero para comprar bienes
con la intenciรณn de venderlos en el futuro, hasta asignar presupuestos sustanciales para
proyectos inmobiliarios a gran escala. De manera similar, las dificultades financieras
imprevistas pueden variar, desde la necesidad de fondos inmediatos para realizar una
compra poco antes de recibir un sueldo hasta la refinanciaciรณn de una deuda hipotecaria
para evitar el riesgo de perder la casa.
Cuando se trata de dinero, es fundamental manejar todos los procedimientos con
extrema precauciรณn y cumplir con los requisitos reglamentarios con la mayor seriedad.
De manera similar, el enfoque para lograr rentabilidad en los negocios no deberรญa
implicar una asunciรณn excesiva de riesgos, ya que el dinero en juego pertenece
principalmente a los usuarios. Para abordar eficazmente este tema, las instituciones
financieras han adoptado diversas metodologรญas y procedimientos a seguir, que pueden
Pรกg. 46
variar segรบn cada departamento de la empresa. Estas organizaciones pueden abarcar una
amplia gama de รกreas, como derecho, contabilidad y servicios informรกticos, entre otras.
Especรญficamente, este artรญculo se centrarรก en aprovechar la programaciรณn informรกtica
para automatizar, mejorar y/o simplificar la implementaciรณn de ciertos procesos de toma
de decisiones y gestiรณn de riesgos.
En el mundo actual, existe una gran cantidad de conocimientos e informaciรณn
valiosa oculta en grandes volรบmenes de datos. Con la llegada de la revoluciรณn digital,
ahora se pueden crear aplicaciones mรกs fรกcilmente para darle sentido a esta informaciรณn,
gracias al apoyo y los avances de la tecnologรญa. El aprendizaje automรกtico, tambiรฉn
conocido como machine learning en espaรฑol, es un campo especรญfico dentro de la
inteligencia artificial que se enfoca en el desarrollo e implementaciรณn de algoritmos que
tienen la capacidad de aprender de un conjunto de datos determinado. Este campo
requiere una comprensiรณn integral de la programaciรณn, la estadรญstica, las matemรกticas y
cualquier otra rama relacionada que estรฉ relacionada con los datos que se procesan, que
puede abarcar una amplia gama de campos como los negocios y la medicina. Los
algoritmos del aprendizaje automรกtico estรกn diseรฑados especรญficamente para sacar
conclusiones basadas รบnicamente en el conjunto de datos proporcionado.
El aprendizaje automรกtico abarca varios tipos, incluido el aprendizaje
supervisado, no supervisado, profundo y de refuerzo. El aprendizaje supervisado,
implica la tarea de clasificar o hacer una regresiรณn de un conjunto de datos, mientras que
el aprendizaje no supervisado se centra en descubrir patrones ocultos dentro de los datos.
En el caso del aprendizaje por refuerzo, un modelo toma la forma de un agente que
explora un espacio desconocido y determina acciones mediante prueba y error. El agente
aprende de las recompensas y sanciones que recibe en funciรณn de sus acciones. Por otro
lado, los algoritmos de aprendizaje profundo se basan en redes neuronales artificiales,
Pรกg. 47
que constan de mรบltiples capas de procesamiento. Estas redes tienen la capacidad de
aprender representaciones de datos en distintos niveles de abstracciรณn.
En los รบltimos tiempos, las empresas han reconocido cada vez mรกs la importancia
de poseer estas habilidades, ya que han demostrado ser fundamentales para maximizar
las ganancias, minimizar los riesgos, mejorar las estrategias comerciales, impulsar la
productividad e incluso identificar enfermedades. Para lograr estos resultados, se debe
seguir un procedimiento especรญfico, que implica adquirir los datos, preprocesarlos y, en
รบltima instancia, convertirlos en informaciรณn valiosa. Convencionalmente, el conjunto de
datos se divide en dos subconjuntos: datos de entrenamiento y datos de prueba. Los datos
de entrenamiento se emplean para entrenar el algoritmo de aprendizaje y determinar los
parรกmetros del modelo, mientras que los datos de prueba sirven para evaluar el
rendimiento del modelo. Las diversas aplicaciones del aprendizaje automรกtico se ilustran
vรญvidamente en la figura anterior (Heros Cรกrdenas, 2022).
Los datos
Para considerar que un conjunto de datos es de calidad, debe ser รบtil para el
anรกlisis y contener valores precisos. Deben evitarse datos poco realistas, la coherencia
tambiรฉn es importante, lo que significa que si varias fuentes proporcionan la misma
informaciรณn, esta debe representarse de forma coherente. Asimismo, los datos deben
estar actualizados para garantizar el conocimiento mรกs fidedigno. Deben minimizarse la
redundancia y la informaciรณn irrelevante, ya que pueden dificultar el anรกlisis. Los valores
faltantes son comunes al recopilar informaciรณn, pero tener demasiados valores faltantes
puede hacer que los datos estรฉn incompletos y no sean aptos para el anรกlisis.
Pรกg. 48
Los datos numรฉricos y de texto se explican por sรญ solos, mientras que los datos
categรณricos representan diferentes categorรญas o grupos, que pueden tener o no un orden
lรณgico. Por ejemplo, el gรฉnero se puede representar mediante datos categรณricos,
asignando 0 al gรฉnero femenino y 1 al gรฉnero masculino. Si se necesita un orden lรณgico,
una variable que represente la satisfacciรณn del cliente puede usar 0 para insatisfecho, 1
para neutral y 2 para satisfecho. Los conjuntos de datos de alta calidad se someten a un
proceso exhaustivo para lograr mejores resultados. Una vez que se establece la idoneidad,
se realiza un anรกlisis estadรญstico y grรกfico para determinar el algoritmo รณptimo para
extraer conocimiento.
En algunos casos, es posible que sea necesario transformar los datos a otra escala
o representarlos con valores diferentes sin perder la informaciรณn original. Hoy en dรญa,
existen numerosos conjuntos de datos reales disponibles que contienen informaciรณn
valiosa relacionada con diversos campos. Los ejemplos incluyen pรกginas oficiales de
instituciones como el Banco de instituciones financieras, asรญ como plataformas como
Kaggle y Yahoo Finance. Los datos son el ingrediente esencial para entrenar algoritmos
de aprendizaje automรกtico. Proporciona la informaciรณn bruta que los algoritmos
necesitan para procesar y convertir en conocimiento. Sin embargo, obtener este
conocimiento no es una tarea sencilla, ya que no todos los datos pueden proporcionar la
informaciรณn y las respuestas esperadas. Los datos pueden ser cuantitativos o cualitativos
y se transforman en variables numรฉricas, categรณricas y textuales. Estas variables permiten
manipular la evidencia recopilada para diferentes objetivos, como anรกlisis,
procesamiento o creaciรณn de modelos.
En este contexto, las tรฉcnicas de estadรญstica descriptiva o anรกlisis de datos
exploratorios ayudan a presentar datos de manera eficaz al resaltar su estructura
subyacente. Existen numerosos mรฉtodos sencillos y cautivadores para representar
visualmente datos a travรฉs de grรกficos, que facilitan la identificaciรณn de patrones
significativos y anomalรญas imprevistas. Otro enfoque para describir datos implica
condensarlos en unos pocos valores numรฉricos que capturen efectivamente su esencia,
minimizando al mismo tiempo cualquier posible distorsiรณn o pรฉrdida de informaciรณn.
El paso inicial en cualquier anรกlisis de datos debe implicar explorar los datos. Pero
ยฟpor quรฉ no deberรญamos simplemente analizar los datos de inmediato? Bueno, para
empezar, las computadoras pueden ser rรกpidas, pero carecen de la capacidad de pensar
Pรกg. 49
crรญticamente como lo hacen los humanos. Simplemente siguen las instrucciones que les
damos y operan en funciรณn de los datos proporcionados. Por lo tanto, si hay errores o
patrones inesperados en los datos, la computadora los procesarรก sin darse cuenta de que
son incorrectos o inusuales. Por eso es fundamental realizar un anรกlisis exploratorio de
los datos previamente, para identificar cualquier anomalรญa o problema que pueda afectar
la precisiรณn y confiabilidad del anรกlisis posterior.
De forma general, los datos suelen estar incompletos y no proporcionan una
comprensiรณn completa de una situaciรณn. Por tanto, es fundamental emplear mรฉtodos que
nos permitan extraer informaciรณn significativa de los datos que observamos. A pesar de
la compleja teorรญa matemรกtica detrรกs de ellas, algunas tรฉcnicas de anรกlisis de datos son
sorprendentemente fรกciles de aprender y utilizar. Incluso los estadรญsticos enfrentan
desafรญos cuando manejan listas de datos. Afortunadamente, existen numerosos mรฉtodos
estadรญsticos disponibles para ayudarnos a descubrir las caracterรญsticas significativas e
intrigantes de nuestros datos, aplicables en diversos campos del conocimiento.
Estos mรฉtodos deben utilizarse durante todo el proceso de investigaciรณn, desde su
inicio hasta su conclusiรณn. Si bien la estadรญstica suele asociarse con el anรกlisis de datos, es
importante reconocer que tambiรฉn abarca aspectos cruciales relacionados con el diseรฑo
de la investigaciรณn. La elecciรณn de un mรฉtodo de anรกlisis para un problema depende tanto
del tipo de datos disponibles como de la forma en que fueron recopilados.
Debido al profundo impacto de los datos estadรญsticos y las conclusiones obtenidas
a travรฉs de la metodologรญa estadรญstica en diversos campos de la actividad humana,
especialmente en relaciรณn con la investigaciรณn en salud pรบblica, es crucial ser cautelosos
con la correcta aplicaciรณn y validez de los mรฉtodos estadรญsticos en trabajos cientรญficos e
informes tรฉcnicos. Esta preocupaciรณn surge porque la aplicaciรณn incorrecta de mรฉtodos
estadรญsticos puede llevar a conclusiones incorrectas, lo que puede tener consecuencias
importantes.
Asimismo, no todos los lectores tienen la experiencia necesaria para detectar
errores, lo que genera un "ruido" significativo en la literatura cientรญfica. Se ha observado
que los lectores sin formaciรณn metodolรณgica tienen mรกs probabilidades de aceptar la
validez de las conclusiones publicadas en revistas de prestigio. Por lo tanto, estudiar
estadรญsticas y adoptar un enfoque estadรญstico permite a las personas evaluar de manera
Pรกg. 50
objetiva y efectiva la relevancia y adecuaciรณn de la informaciรณn que reciben, como tablas,
grรกficos, porcentajes y tasas. Aunque tambiรฉn es necesario un conocimiento profundo del
tema para una interpretaciรณn precisa, la formaciรณn bรกsica en estadรญstica mejora la
comprensiรณn de la informaciรณn cuantitativa incluso para aquellos que no se especializan
en el campo.
El anรกlisis exploratorio de los datos
Aplicar un algoritmo de aprendizaje automรกtico a un conjunto de datos
recopilados no garantiza la obtenciรณn de conocimientos. De hecho, esto puede tener
consecuencias desastrosas, incluso si los resultados inicialmente parecen prometedores.
Es importante considerar el contexto y los diversos factores asociados con cada problema
para poder extraer completamente el conocimiento contenido en los datos.
Dada la amplia y diversa gama de tรฉcnicas disponibles, no es aconsejable aplicarlas
todas a ciegas en busca del resultado รณptimo. Mรกs bien, es esencial identificar el modelo
apropiado que se alinee con las necesidades especรญficas y el contexto del problema en
cuestiรณn. Para afrontar este desafรญo, es fundamental comprender y analizar a fondo los
datos disponibles. Sin embargo, no existe un enfoque รบnico para realizar anรกlisis de datos
exploratorios, ya que depende en gran medida de la naturaleza de la informaciรณn
recopilada.
El objetivo principal del anรกlisis exploratorio es examinar las caracterรญsticas de la
recopilaciรณn de datos y recopilar informaciรณn sobre la misma. Esto se logra utilizando
grรกficos y cรกlculos estadรญsticos para identificar relaciones entre los diferentes atributos.
Esta fase no solo genera posibles soluciones sino que tambiรฉn proporciona una
perspectiva รบnica sobre los resultados obtenidos al aplicar tรฉcnicas de aprendizaje
automรกtico.
El proceso de anรกlisis consta de tres tรฉcnicas principales: anรกlisis univariado,
bivariado y multivariado. El anรกlisis univariado se centra en comprender las
caracterรญsticas clave de cada variable individual, mientras que el anรกlisis bivariado mide
la relaciรณn entre pares de variables. Por รบltimo, el anรกlisis multivariado tiene como
objetivo descubrir relaciones entre un grupo de atributos. Analizar mรบltiples variables
puede resultar mรกs complejo debido a las diversas combinaciones que pueden surgir. Por
ejemplo, al examinar dos variables, ambas pueden ser numรฉricas, ambas categรณricas o
Pรกg. 51
una puede ser numรฉrica mientras la otra es categรณrica. Al analizar mรบltiples variables,
cada par de variables se examina por separado y los resultados se representan en un
diagrama o grรกfico que contiene una matriz de resultados.
El anรกlisis de datos exploratorio implica la utilizaciรณn de una variedad de
representaciones grรกficas y medidas estadรญsticas para examinar los atributos de los datos.
Sin embargo, es importante seรฑalar que no todas las mรฉtricas ofrecen informaciรณn valiosa.
Por lo tanto, al realizar un proyecto, es crucial seleccionar sรณlo aquellas mรฉtricas que sean
relevantes y puedan contribuir efectivamente a lograr los objetivos deseados. En este
sentido, el cuadro anterior proporciona una descripciรณn general completa de las medidas
estadรญsticas clave utilizadas en el anรกlisis de datos exploratorios.
Asรญ, se tiene que:
Tipos de Datos
Caracterรญsticas:
Pรกg. 52
โ€ข La unidad de anรกlisis u observaciรณn, se refiere al tema o entidad que se estรก
estudiando. Este tema puede abarcar diversas entidades como individuos,
familias, paรญses, regiones, instituciones o cualquier otro objeto de interรฉs.
โ€ข La variable, se refiere a cualquier aspecto o rasgo que queramos medir o registrar
sobre un objeto o sujeto. Es algo que puede cuantificarse o representarse mediante
un valor numรฉrico cuando se mide u observa.
โ€ข El valor de una variable, observaciรณn o medida es la representaciรณn numรฉrica que
describe una caracterรญstica especรญfica de interรฉs dentro de una unidad de
observaciรณn determinada.
โ€ข Un caso o registro se refiere a la recopilaciรณn de mediciones realizadas en una
unidad de observaciรณn especรญfica. Esta unidad podrรญa ser un individuo, un grupo,
una organizaciรณn o cualquier otra entidad que se estรฉ estudiando.
El sexo, el lugar de nacimiento, la edad y la presiรณn arterial sistรณlica son factores
que contribuyen a describir a un individuo. Estas variables abarcan el sexo del individuo,
el lugar donde naciรณ, su edad actual y su lectura de presiรณn arterial. Cada una de estas
variables tiene valores especรญficos รบnicos para la persona en cuestiรณn, lo que mejora aรบn
mรกs su descripciรณn general.
Al realizar una investigaciรณn, el objetivo es analizar el impacto de una o varias
variables (conocidas como variables independientes) sobre una o mรกs variables de interรฉs
(conocidas como variables dependientes). Un excelente ejemplo de esto se observa en los
experimentos, donde el investigador manipula deliberadamente las condiciones
experimentadas por los sujetos (variable independiente) y posteriormente observa y
analiza los efectos resultantes sobre caracterรญsticas o condiciones especรญficas dentro de los
propios sujetos (como la apariciรณn o alteraciรณn de ciertos rasgos, caracterรญsticas o
circunstancias).
Pรกg. 53
Al comenzar a gestionar un conjunto de datos, es fundamental determinar la
cantidad de variables registradas y el mรฉtodo de registro para cada variable. Esta
informaciรณn ayudarรก a diseรฑar la estrategia de anรกlisis adecuada. En el ejemplo
mencionado anteriormente, las variables se pueden clasificar en tipos numรฉricos y
categรณricos, con algunas variables representadas por nรบmeros y otras por letras que
indican categorรญas. Es importante mencionar que varios autores pueden utilizar
diferentes criterios para clasificar los datos.
Los datos categรณricos: cualitativos
Las variables categรณricas son el resultado de documentar la presencia de un
determinado atributo. Al diseรฑar un estudio de investigaciรณn, es fundamental definir
claramente las categorรญas de una variable cualitativa. Estas categorรญas deben ser
exclusivas y cubrir todas las posibilidades. Esto significa que cada observaciรณn debe
clasificarse sin ambigรผedades en una categorรญa y debe haber una categorรญa para cada
individuo.
Es importante considerar todos los escenarios potenciales al crear variables
categรณricas, incluidas opciones como "No sabe/No responde", "No registrado" u "Otro".
Estas categorรญas adicionales aseguran que todos los individuos observados puedan
clasificarse adecuadamente segรบn los criterios de la variable. Los datos categรณricos se
pueden clasificar ademรกs como dicotรณmicos, nominales u ordinales:
โ€ข Los datos dicotรณmicos con dos categorรญas: La unidad de observaciรณn se puede
clasificar en dos grupos distintos. Normalmente, esta categorizaciรณn representa la
presencia o ausencia de un atributo especรญfico, con el cรณdigo 0 asignado a la
ausencia y el cรณdigo 1 asignado a la presencia. Por ejemplo, se puede clasificar a
las personas como hombres o mujeres (a), embarazadas o no (b), fumadores o no
fumadores (c) e hipertensos o normotensos (d). Es importante seรฑalar que los
ejemplos (a) y (b) abarcan todas las categorรญas posibles, mientras que los ejemplos
(c) y (d) son versiones simplificadas de categorรญas mรกs complejas. En el ejemplo
(c), la asignaciรณn de exfumadores no estรก clara, y en el ejemplo (d), se tuvo que
establecer un criterio de corte para convertir una variable numรฉrica en categรณrica.
โ€ข Mรกs de dos categorรญas:
Pรกg. 54
โ—ฆ Categorรญas Nominales se refieren a categorรญas que no tienen un orden o
jerarquรญa clara. Ejemplos de categorรญas nominales incluyen paรญs de origen,
estado civil y diagnรณstico.
โ—ฆ Por otro lado, las categorรญas ordinales tienen un orden o jerarquรญa natural entre
las categorรญas. Por ejemplo, al considerar los hรกbitos de fumar, las categorรญas
pueden variar desde no fumar hasta ser exfumador, fumar menos o igual a 10
cigarrillos por dรญa y fumar mรกs de 10 cigarrillos por dรญa. De manera similar, al
evaluar la gravedad de una patologรญa, las categorรญas pueden variar desde
ausente hasta leve, moderada y grave.
Aunque los datos ordinales se pueden representar numรฉricamente, como en
los estadios I a IV del cรกncer de mama, es importante seรฑalar que los valores
numรฉricos no reflejan una diferencia proporcional en la variable subyacente.
Por ejemplo, un paciente en estadio IV no tiene un pronรณstico dos veces peor
que un paciente en estadio II, ni la diferencia entre el estadio I y II es la misma
que entre el estadio III y IV. Esto contrasta con variables cuantitativas como la
edad, donde 40 aรฑos es el doble que 20 aรฑos y una diferencia de 1 aรฑo es
consistentemente significativa en todo el rango de valores.
โ—ฆ Debido a las diferencias inherentes entre variables cualitativas y cuantitativas,
es crucial manejar las variables cualitativas con cuidado, especialmente cuando
han sido codificadas numรฉricamente. Tratarlos como nรบmeros y calcular
promedios u otras estadรญsticas numรฉricas puede dar lugar a interpretaciones
incorrectas. En la prรกctica clรญnica, las escalas se utilizan a menudo para definir
grados de sรญntomas o enfermedades, como el uso de 0, +, ++, +++ para indicar
una gravedad creciente. Es importante establecer definiciones operativas claras
para este tipo de variables y evaluar su confiabilidad para garantizar que
diferentes observadores clasifiquen al mismo paciente en la misma categorรญa.
Los datos numรฉricos
Se considera numรฉrica una variable, si el resultado de la observaciรณn o mediciรณn
corresponde a un valor numรฉrico. Estas variables se pueden clasificar en diferentes tipos
segรบn sus caracterรญsticas y propiedades especรญficas:
Pรกg. 55
โ€ข La variable es discreta, lo que significa que sรณlo puede tener un conjunto especรญfico
de valores. Normalmente, estos valores se determinan mediante conteo. Por
ejemplo, esto podrรญa incluir variables como la cantidad de personas en un hogar,
la cantidad de procedimientos quirรบrgicos realizados o la cantidad de casos
reportados de una condiciรณn mรฉdica particular.
โ€ข Variable continua, suele ser medidas y expresadas en unidades. En teorรญa, una
mediciรณn puede adoptar un conjunto infinito de valores posibles dentro de un
rango determinado. En la prรกctica, los valores posibles de una variable estรกn
limitados por la precisiรณn del mรฉtodo de mediciรณn o modo de registro. Por
ejemplo: altura, peso, pH, niveles de colesterol en sangre.
Comprender la distinciรณn entre datos discretos y continuos es crucial a la hora de
determinar quรฉ mรฉtodo de anรกlisis estadรญstico emplear, ya que ciertos mรฉtodos suponen
que los datos son continuos. Tomemos como ejemplo la variable edad. La edad suele
considerarse una variable continua, pero si se mide en aรฑos, se vuelve discreta. En
estudios con adultos con un rango de edad de 20 a 70 aรฑos, tratar la edad como continua
no plantea problemas debido a la gran cantidad de valores potenciales. Si bien, cuando
se trata de niรฑos en edad preescolar, registrar la edad en aรฑos requerirรญa tratarla como
discreta.
Por el contrario, si la edad se registra en meses, se puede tratar como continua. De
manera similar, la variable del nรบmero de pulsos por minuto es tรฉcnicamente discreta,
pero a menudo se trata como continua debido a la multitud de valores posibles. Vale la
pena seรฑalar que los datos numรฉricos, ya sean discretos o continuos, pueden
transformarse en datos categรณricos y analizarse en consecuencia. Si bien este enfoque es
correcto, puede que no siempre sea eficiente, por lo que es preferible registrar el valor
numรฉrico de la mediciรณn. Esta prรกctica permite un anรกlisis e interpretaciรณn mรกs precisos:
โ€ข Cuando analiza la variable como numรฉrica, permite un anรกlisis estadรญstico mรกs
sencillo y efectivo.
โ€ข Generar clasificaciones adicionales basadas en estรกndares alternativos.
Sรณlo hay determinadas situaciones en las que es mรกs ventajoso categorizar datos
numรฉricos en lugar de registrarlos como valores cuantitativos. Esto ocurre
principalmente cuando se reconoce que la mediciรณn tiene una imprecisiรณn inherente,
Pรกg. 56
como la cantidad de cigarrillos consumidos diariamente o la cantidad de tazas de cafรฉ
consumidas en una semana.
Los otros tipos de datos
โ€ข Los porcentajes:
Los porcentajes se calculan dividiendo dos cantidades. Por ejemplo, puede
calcular el porcentaje de reducciรณn de la presiรณn arterial despuรฉs de usar un
medicamento o el peso corporal relativo dividiendo el peso observado por el peso
deseable. En el primer ejemplo, ambas cantidades se miden al mismo tiempo,
mientras que en el segundo ejemplo, el denominador es un valor estรกndar
predeterminado.
Aunque los porcentajes pueden verse como variables continuas, pueden plantear
desafรญos durante el anรกlisis, particularmente cuando pueden exceder el 100% o
estar por debajo del 0% (como en el caso del peso corporal relativo) o cuando
pueden resultar en valores negativos (como en el caso del peso corporal relativo).
caso de reducciรณn porcentual de la presiรณn arterial). Por ejemplo, si un paciente
tiene una presiรณn arterial sistรณlica (PAS) de 150 mm Hg y experimenta un aumento
del 20% en la PAS, alcanzarรก los 180 mm Hg. Sin embargo, una disminuciรณn
posterior del 20% lo reducirรก a 144 mm Hg. Por lo tanto, es necesario tener
precauciรณn al analizar dichos datos.
โ€ข Las escalas analรณgicas visuales:
Cuando se requiere que un individuo exprese el alcance o la intensidad de un
atributo no cuantificable, como satisfacciรณn, malestar, salud general, disfrute,
consenso, etc., la escala visual analรณgica se presenta como una herramienta valiosa.
Esta tรฉcnica permite la adquisiciรณn de categorรญas ordinales, ya que implica
presentar al encuestado una lรญnea recta, que generalmente mide 10 centรญmetros,
donde cada extremo de la lรญnea representa los extremos del atributo que se estรก
midiendo. Luego se le pide al encuestado que marque un punto en la lรญnea que
mejor represente su percepciรณn personal de su propio estado en relaciรณn con el
atributo en cuestiรณn. Por ejemplo, si se desea evaluar el nivel de satisfacciรณn
Pรกg. 57
experimentado con un tratamiento en particular, la utilizaciรณn de la siguiente
escala puede resultar beneficiosa.
Estas escalas brindan una valiosa ayuda para evaluar las variaciones dentro de un
individuo. Si bien una puntuaciรณn รบnica de 3,7 puede no tener un significado
significativo por sรญ sola, una disminuciรณn de 2 puntos en la puntuaciรณn de un
paciente sรญ ofrece informaciรณn significativa. Sin embargo, se debe tener precauciรณn
al manejar este tipo de datos ya que, a diferencia de los datos numรฉricos, incluso
cuando se expresan como nรบmeros, la escala de mediciรณn subyacente puede diferir
entre dos individuos distintos.
โ€ข Los scores:
Sirven como medio para evaluar el estado de un individuo teniendo en cuenta
diversas variables, normalmente de naturaleza categรณrica. En entornos clรญnicos,
estas puntuaciones se elaboran considerando los sรญntomas y signos que presenta
un paciente, asignรกndoles puntuaciones respectivas y posteriormente
agregรกndolas para obtener una puntuaciรณn acumulativa que proporcione
informaciรณn sobre la condiciรณn general del individuo. En el anรกlisis, los scores
deben considerarse y manejarse de la misma manera que se utilizan habitualmente
en la prรกctica, es decir, estableciendo categorรญas ordinales en lugar de tratarlas
como variables numรฉricas.
โ€ข Lo datos censurados:
Una observaciรณn censurada se refiere a una situaciรณn en la que no se puede obtener
la medida exacta, pero somos conscientes de que estรก por encima o por debajo de
un umbral especรญfico. Es decir, tenemos informaciรณn sobre el valor mรญnimo o
mรกximo que pueden tomar los datos. Exploremos algunos ejemplos para ilustrar
mejor este concepto:
โ—ฆ Al realizar mediciones de oligoelementos, es posible que el nivel del elemento
en la muestra sea inferior al que puede detectarse con la tรฉcnica elegida. En
Pรกg. 58
tales casos, se dice que los datos han salido de la censura porque se desconoce
el valor real del elemento, pero sรญ tenemos conocimiento de un lรญmite superior
para รฉl.
โ—ฆ Se han realizado mรกs investigaciones que se centran en la duraciรณn de la
supervivencia. En los casos en que los pacientes continรบan viviendo mรกs allรก
de la duraciรณn del estudio, se desconoce la duraciรณn exacta de su
supervivencia. Sin embargo, se establece que su tiempo de supervivencia
supera la duraciรณn del estudio. Este tiempo de supervivencia se clasifica como
censurado por la derecha, ya que sรณlo disponemos de una estimaciรณn mรญnima
del mismo.
โ—ฆ Una investigaciรณn posterior tiene como objetivo examinar la duraciรณn entre la
apariciรณn de una condiciรณn mรฉdica y su posterior reapariciรณn. En los casos en
que los participantes ya no sean parte del estudio por diversas razones como
abandono, muerte por causas no relacionadas o cualquier otro factor, pero se
confirmรณ que estaban libres de la condiciรณn hasta su รบltimo examen, la
informaciรณn relativa al tiempo entre la ocurrencia inicial y la recurrencia
posterior se consideran datos censurados correctamente.
La determinaciรณn del mรฉtodo de anรกlisis apropiado y vรกlido depende en gran
medida del tipo de datos que se analizan, ya que cada mรฉtodo de anรกlisis estadรญstico se
adapta especรญficamente a un determinado tipo de datos. La diferenciaciรณn mรกs
significativa radica en la categorizaciรณn de los datos en formas numรฉricas y categรณricas.
El procesamiento de datos en la computadora
Las computadoras desempeรฑan un papel crucial en la simplificaciรณn de los
laboriosos aspectos del anรกlisis estadรญstico y son capaces de generar cรกlculos precisos. Sin
embargo, es importante reconocer que su uso no garantiza automรกticamente la validez y
correcciรณn de los resultados obtenidos. En esta discusiรณn, exploraremos las ventajas y
desventajas de utilizar computadoras para el procesamiento de datos y tambiรฉn
examinaremos varios enfoques para compilar archivos de datos.
Las ventajas:
Pรกg. 59
โ€ข La combinaciรณn de precisiรณn y rapidez es fundamental cuando se trata de software
de alta calidad, ya que garantiza la adquisiciรณn oportuna de resultados precisos.
โ€ข Una de las ventajas notables de la estadรญstica es su versatilidad, ya que ofrece una
amplia gama de tรฉcnicas estadรญsticas que van mรกs allรก del alcance de cualquier
curso de estadรญstica para abarcarlas por completo.
โ€ข Se pueden crear grรกficos para representar visualmente los datos originales o los
resultados obtenidos, mejorando la capacidad de comprender e interpretar la
informaciรณn.
โ€ข Otra ventaja de utilizar una base de datos es su flexibilidad, ya que permite
modificaciones sencillas y repeticiรณn de anรกlisis. Despuรฉs de construir la base de
datos, es posible realizar pequeรฑos ajustes y volver a analizar los datos. Por
ejemplo, se pueden excluir ciertos casos y realizar anรกlisis en subgrupos o estratos
especรญficos. Esta flexibilidad brinda a los investigadores la oportunidad de refinar
su anรกlisis y explorar diferentes perspectivas dentro de los datos.
โ€ข Crear nuevas variables es una tarea sencilla que se puede realizar de varias
maneras. Por ejemplo, se puede calcular la diferencia entre las mediciones
tomadas antes y despuรฉs de un tratamiento, determinar la edad restando fechas
de nacimiento, convertir variables numรฉricas en categรณricas, reclasificar variables
cualitativas, aplicar transformaciones, etc.
โ€ข Una ventaja de ciertos programas es su capacidad para manejar una gran cantidad
de datos, sin limitaciones en la cantidad de registros o variables que pueden
procesarse.
Las desventajas:
โ€ข Hay varios problemas relacionados con errores de software que pueden ocurrir al
utilizar paquetes estadรญsticos. Es importante ser consciente de estos errores, ya que
pueden afectar la precisiรณn y confiabilidad de los resultados obtenidos. Entre los
paquetes estadรญsticos mรกs utilizados, hay algunos que se consideran mรกs seguros
que otros. Estos incluyen SAS, S-PLUS, STATA y SPSS. Sin embargo, incluso con
estos paquetes seguros, aรบn pueden surgir errores en algunos procedimientos.
Para garantizar la calidad del software utilizado, es recomendable verificar la
Pรกg. 60
exactitud de los resultados comparรกndolos con ejemplos proporcionados en libros
o utilizando otro software de alto nivel. De esta manera, se pueden identificar y
abordar cualquier discrepancia o inconsistencia, mejorando asรญ la confiabilidad de
los hallazgos. En conclusiรณn, los errores de software pueden plantear desafรญos al
realizar anรกlisis estadรญsticos. Es crucial seleccionar un paquete estadรญstico confiable
y seguro y validar los resultados obtenidos cotejรกndolos con fuentes confiables. Al
tomar estas precauciones, los investigadores pueden mitigar los riesgos asociados
con los errores de software y garantizar la validez de sus anรกlisis.
โ€ข Uno de los beneficios de tener una amplia gama de mรฉtodos estadรญsticos para
elegir es la capacidad de ser versรกtiles en nuestro anรกlisis. Si bien, esta ventaja
puede convertirse rรกpidamente en desventaja si no tenemos cuidado. La
abundancia de mรฉtodos estadรญsticos puede hacer que resulte tentador utilizar uno
inadecuado para nuestro anรกlisis. Por lo tanto, es fundamental que los usuarios
comprendan claramente sus propias limitaciones en el conocimiento estadรญstico y
utilicen รบnicamente mรฉtodos que comprendan plenamente. En los casos en que el
problema en cuestiรณn parezca requerir el uso de mรฉtodos desconocidos, se
recomienda encarecidamente buscar la orientaciรณn de un estadรญstico profesional.
Al hacerlo, podemos garantizar que nuestro anรกlisis sea preciso y confiable.
โ€ข El concepto de caja negra hace referencia a la posibilidad de perder contacto con
los datos. Cuando el anรกlisis se realiza automรกticamente, existe el peligro potencial
de pasar por alto los aspectos mรกs importantes de los datos o de no capturar
informaciรณn sobre personas que exhiben un comportamiento inusual. Esto resalta
la importancia de monitorear e interpretar activamente los datos para evitar
cualquier posible pรฉrdida o supervisiรณn. La precisiรณn y validez de los resultados
obtenidos de un mรฉtodo de anรกlisis estadรญstico dependen de la calidad del archivo
de datos. En el caso de que los datos estรฉn registrados de manera inadecuada o
contengan discrepancias y el investigador no pueda identificar estos problemas,
las conclusiones extraรญdas del anรกlisis serรกn errรณneas, independientemente de la
complejidad y el refinamiento de las tรฉcnicas estadรญsticas empleadas. Es crucial
que los investigadores evalรบen diligentemente y garanticen la integridad de los
datos con los que estรกn trabajando, ya que cualquier deficiencia o inexactitud en
Pรกg. 61
los datos puede afectar significativamente la confiabilidad de los hallazgos del
estudio.
โ€ข La precisiรณn de los resultados depende del calibre del archivo de datos. En el caso
de que los datos estรฉn documentados de manera inexacta o contengan
discrepancias que pasen desapercibidas para el investigador, los hallazgos
inevitablemente serรกn defectuosos, independientemente de la complejidad y
delicadeza de la tรฉcnica de anรกlisis estadรญstico empleada.
La estrategia en el anรกlisis de datos con el empleo de programas de computaciรณn
โ€ข La definiciรณn de variables:
Codificar todas las variables categรณricas con nรบmeros puede facilitar la carga de
datos, haciรฉndola mรกs rรกpida y precisa. Ademรกs, asignar etiquetas a cada categorรญa
ayuda a identificarlas fรกcilmente y mejora la facilidad de uso de los resultados
estadรญsticos. Cuando se trata de fechas, es fundamental determinar el formato que
se utilizarรก para la variable, como dรญa/mes/aรฑo, mes/dรญa/aรฑo o dรญa-mes-aรฑo. Sin
embargo, es importante tener en cuenta que es posible que algunos paquetes de
software no reconozcan formatos de fecha especรญficos y, en su lugar, traten los
valores de fecha como caracteres alfanumรฉricos (texto). En tales casos, estas fechas
no se pueden utilizar en operaciones algebraicas, ya que no se consideran valores
numรฉricos.
Al registrar variables numรฉricas, es importante mantener el mismo nivel de
precisiรณn que cuando se obtuvieron los datos originalmente, sin redondear ni
categorizar los valores. Si se observa al mismo individuo varias veces, como
durante el seguimiento del embarazo o en un ensayo, se deben recopilar
mediciones repetidas para esa persona especรญfica. Cada visita o mediciรณn no debe
tratarse como un registro separado, ya que serรญa incorrecto tratar estas
observaciones como si pertenecieran a individuos diferentes.
El anรกlisis de este tipo de datos requiere tรฉcnicas estadรญsticas especializadas
conocidas como tรฉcnicas de medidas repetidas. Para simplificar el proceso de
carga de datos y garantizar la precisiรณn, es recomendable asignar un nombre de
no mรกs de 10 letras a cada variable. Si es necesario, se puede asignar un nombre
Pรกg. 62
completo a la variable mediante una etiqueta. Vale la pena seรฑalar que algunos
paquetes de software solo aceptan nombres de variables con un mรกximo de 8
letras, truncando los caracteres adicionales. Ciertos caracteres, como los puntos,
no estรกn permitidos en los nombres de variables y no se deben dejar espacios
dentro de los nombres.
โ€ข La consistencia de los datos:
Pueden surgir errores en varias etapas al tratar con mediciones y datos. Estos
errores pueden ocurrir durante el proceso de mediciรณn inicial, al registrar los datos
en fuentes como registros mรฉdicos, durante la transcripciรณn a una hoja de cรกlculo
o durante el armado de una base de datos. A menudo es difรญcil determinar si los
datos son totalmente exactos, pero es importante asegurarse de que sean al menos
plausibles. Aquรญ es donde entra en juego el concepto de coherencia de los datos. El
objetivo no es necesariamente corregir todos los errores, sino mรกs bien identificar
y abordar los mรกs evidentes. La coherencia de los datos tiene como objetivo
identificar y, si es posible, rectificar estos errores dentro de los datos. El primer
paso en este proceso es verificar si hay errores tipogrรกficos. En el caso de archivos
mรกs pequeรฑos, es una prรกctica comรบn imprimirlos y revisarlos detenidamente. Sin
embargo, para archivos mรกs grandes, se recomienda escribir los datos dos veces y
comparar ambas versiones. Cierto software, como EpiInfo, ofrece un
procedimiento de "VALIDAR" que facilita esta comparaciรณn y genera una lista de
las discrepancias encontradas entre las dos versiones.
โ—ฆ Los datos categรณricos: En este escenario, es sencillo verificar la validez de todos
los valores de las variables porque existe un rango predeterminado de valores
posibles para la variable. Por ejemplo, consideremos la variable "Grupo
sanguรญneo" que puede tener valores de 0, A, B o AB. Para garantizar la
precisiรณn, podemos crear una tabla de frecuencia para cada variable categรณrica
y verificar que las categorรญas se alineen con las categorรญas predefinidas. Vale la
pena seรฑalar que ciertos paquetes de software distinguen entre letras
mayรบsculas y minรบsculas, por lo que pueden tratar "a" como una categorรญa
distinta de "A" en el caso de los grupos sanguรญneos. Es aconsejable compilar
una lista completa de tablas de frecuencia para todas las variables categรณricas
antes de comenzar el anรกlisis estadรญstico de los datos.
Pรกg. 63
โ—ฆ Los datos numรฉricos: Para garantizar la precisiรณn, es importante proponer el
rango de valores esperado o posible para cada variable. Por ejemplo, la edad
materna al momento del parto podrรญa oscilar entre 12 y 50 aรฑos, mientras que
la presiรณn arterial sistรณlica podrรญa oscilar entre 70 y 250 mg Hg. Un error comรบn
es colocar mal la coma o el punto decimal, lo que puede generar datos
inexactos. Vale la pena seรฑalar que los valores fuera del rango esperado no son
necesariamente incorrectos, sino mรกs bien improbables o incluso imposibles.
Desafortunadamente, determinar el lรญmite exacto entre valores improbables e
imposibles puede resultar un desafรญo. Sin embargo, si hay evidencia de error,
es importante corregir valores improbables pero posibles. Ademรกs, al importar
una base de datos desde un programa de software diferente, es fundamental
verificar que se haya mantenido el tipo de variable. En concreto, las variables
numรฉricas no deben transformarse en texto si no se reconoce el indicador del
sรญmbolo decimal (coma o punto). Es importante tener en cuenta que no se
pueden realizar operaciones algebraicas con variables de texto.
โ—ฆ El chequeo lรณgico: Hay cierta informaciรณn que sรณlo se releva en ciertos casos.
Un caso mu simbรณlico es, nรบmero de embarazos, sรณlo es relevante si sexo =
femenino, pero para sexo = masculino, esta variable deberรญa ser โ€˜.โ€˜ o โ€œno
correspondeโ€. Los datos deben satisfacer los criterios de inclusiรณn y exclusiรณn
del estudio. Ejemplo: Estudio de agentes anti-hipertensivos, los pacientes que
entran en el estudio deben tener valores de la presiรณn arterial dentro de un
cierto rango al ingreso. Evaluar la consistencia de los datos es algo mรกs
complicado cuando existen valores de algunas variables que dependen de
valores de otras variables. Existen combinaciones de valores de ciertas
variables que son inaceptables, aun cuando cada una de ellas se encuentre
dentro de lรญmites razonables. El investigador debe proponer chequeos lรณgicos
que permitan detectar aberraciones en los datos. Ejemplos: es poco probable
que un sujeto se ubique en el percentil 5 de presiรณn diastรณlica y en el percentil
95 de presiรณn sistรณlica, o es poco probable que un niรฑo nacido con 30 semanas
de gestaciรณn pese 3800 g. Cuando una variable se mide varias veces en la misma
unidad de observaciรณn puede graficarse a lo largo del tiempo para ver si el
comportamiento es acorde a lo esperado.
Pรกg. 64
โ—ฆ Las fechas: Los intervalos de tiempo entre eventos se determinan utilizรกndolos
como punto de referencia. Por ejemplo, con estos se puede calcular la edad de
un paciente en el momento de la consulta o la duraciรณn de la supervivencia.
Para garantizar la precisiรณn, es fundamental examinar si las fechas se
encuentran dentro de plazos razonables. Esto incluye evaluar si las fechas de
las evaluaciones se alinean con el perรญodo de desarrollo de la investigaciรณn o si
las fechas de nacimiento cumplen con los criterios de edad requeridos para la
inclusiรณn y exclusiรณn. Asimismo, es de suma importancia secuenciar
correctamente las fechas de cada individuo, como nacimiento, hospitalizaciรณn
y muerte.
โ—ฆ Los datos faltantes: Otra cuestiรณn que es necesario abordar es cรณmo se manejan
los datos faltantes. Cuando existe un espacio en blanco en la informaciรณn
cargada, es importante considerar que ciertos paquetes estadรญsticos pueden
asignar un valor de cero a ese espacio en blanco. A veces, a los datos faltantes
se les asignan valores poco realistas como 99999 o valores negativos para datos
que solo pueden ser positivos. El problema surge cuando estos valores atรญpicos
no se excluyen durante el anรกlisis, ya que los resultados serรกn inexactos ya que
cualquier programa aceptarรก el valor cero o 99999 como vรกlido. Sin embargo,
EpiInfo aborda este problema representando los datos faltantes con un punto,
lo que ayuda a evitar este problema. EpiInfo tambiรฉn ofrece una funciรณn
llamada CHEK, que garantiza la coherencia de los datos durante el proceso de
carga.
โ€ข El anรกlisis exploratorio de los datos:
Para analizar adecuadamente los datos, es fundamental crear representaciones
visuales como grรกficos y tablas. Estas ayudas visuales desempeรฑan un papel
importante en la identificaciรณn de patrones de datos inusuales o anormales. El
siguiente capรญtulo estarรก dedicado exclusivamente a explorar y abordar este
aspecto en particular.
Los malos hรกbitos en el empleo de la computadora
Pรกg. 65
Ademรกs de los inconvenientes antes mencionados de depender de computadoras
para la gestiรณn de datos, es fundamental abordar ciertos usos indebidos y abusos que
deben evitarse:
โ€ข Al realizar investigaciones con objetivos vagos y recopilar datos basados en
intereses potenciales, los investigadores suelen realizar numerosos anรกlisis
estadรญsticos para identificar diferencias entre grupos o correlaciones entre
variables. Si bien, es importante reconocer que en tales anรกlisis existe una alta
probabilidad de encontrar relaciones significativas puramente por casualidad, sin
que en realidad reflejen ninguna relaciรณn verdadera dentro de la poblaciรณn. Los
anรกlisis exploratorios sirven como herramientas valiosas para generar nuevas
hipรณtesis, que luego deberรญan probarse en estudios separados. No es apropiado
utilizar el mismo estudio tanto para la generaciรณn como para la verificaciรณn de
hipรณtesis.
โ€ข No es aconsejable someter los datos a anรกlisis estadรญsticos complejos รบnicamente
porque estรฉn disponibles en software, ya que esto puede no ser lo mejor para el
estudio. Mรกs bien, el anรกlisis debe limitarse al mรญnimo necesario para abordar las
preguntas de investigaciรณn en cuestiรณn. Realizar anรกlisis mรกs simples ofrece varios
beneficios, uno de los cuales es la facilidad de interpretar y comunicar eficazmente
las conclusiones resultantes.
โ€ข Un problema en el anรกlisis estadรญstico es la presencia de precisiรณn espuria en los
resultados generados por los programas estadรญsticos. Estos resultados suelen
incluir un nรบmero significativo de decimales, pero es importante comunicar los
hallazgos con la precisiรณn adecuada. Por ejemplo, considere un cรกlculo en el que
el porcentaje se determina dividiendo 17 entre 45 y multiplicando por 100, lo que
da como resultado 37,778%. En este caso, serรญa mรกs apropiado informar el
porcentaje como 38% porque la adiciรณn de solo un caso mรกs, lo que darรญa como
resultado 18 de 45, modificarรญa el porcentaje al 40%. Este ejemplo resalta la
necesidad de evitar decimales innecesarios y comunicar con precisiรณn los
hallazgos en el anรกlisis estadรญstico.
Grรกficos en la estadรญstica descriptiva
Pรกg. 66
La estadรญstica descriptiva, tambiรฉn conocida como anรกlisis de datos exploratorios,
proporciona varias tรฉcnicas para presentar y analizar los atributos fundamentales de un
conjunto de datos mediante tablas, grรกficos y medidas resumidas. El objetivo final de la
construcciรณn de grรกficos es obtener una comprensiรณn integral de los datos en su conjunto
y reconocer sus caracterรญsticas mรกs importantes. La elecciรณn del tipo de grรกfico depende
en gran medida de la naturaleza de la variable que deseamos representar: si son variables
categรณricas o variables numรฉricas.
Grรกfico de torta
Comenzando con los grรกficos mรกs importantes utilizados en el anรกlisis
exploratorio, encontramos el grรกfico circular o de torta como un mรฉtodo ampliamente
reconocido, sencillo y prรกctico para ilustrar las proporciones y la distribuciรณn de datos.
Este grรกfico en particular estรก dividido en secciones, siendo el รกrea de cada secciรณn
proporcional al porcentaje que representa en relaciรณn con las variables en cuestiรณn. Un
ejemplo ilustrativo se puede ver en la siguiente figura donde se muestra la distribuciรณn
de los activos financieros en Mรฉxico entre los bancos mรกs destacados del paรญs (Heros
Cรกrdenas, 2022), proporcionando un medio visual para comparar la participaciรณn de
mercado de cada uno de estos bancos.
El grรกfico que se analiza aquรญ se emplea comรบnmente y muestra la frecuencia
relativa de cada categorรญa utilizando una forma circular, donde el รกngulo del cรญrculo
Pรกg. 67
representa la frecuencia relativa correspondiente. Como cualquier otro grรกfico, es
fundamental incluir el nรบmero total de sujetos para proporcionar una comprensiรณn
completa. Este grรกfico en particular se conoce como histograma.
El histograma
El histograma es ampliamente reconocido como el grรกfico mรกs popular para
resumir conjuntos de datos numรฉricos y cumple el mismo propรณsito que un diagrama de
tallo y hoja. Si bien un diagrama de tallo y hoja es ventajoso para preservar los valores de
observaciรณn individuales, resulta menos prรกctico para conjuntos de datos mรกs grandes.
Aunque la creaciรณn manual de un histograma lleva mรกs tiempo en comparaciรณn con un
grรกfico de tallo y hojas, el software estadรญstico suele ofrecer la opciรณn de generar
histogramas. El paso inicial para construir un histograma implica construir una tabla de
frecuencias.
El histograma representa visualmente la distribuciรณn de datos. Utiliza un eje
vertical para mostrar la frecuencia de los valores que aparecen en el eje horizontal. Esto
nos permite observar fรกcilmente cuรกntas veces aparece un nรบmero particular o un rango
de nรบmeros en un conjunto de datos en comparaciรณn con otros. Por ejemplo, en la figura
que sigue (Heros Cรกrdenas, 2022), podemos examinar un histograma que muestra el
nรบmero de individuos de una edad especรญfica en una muestra. Si bien el examen de los
datos en su conjunto puede no llevar a conclusiones concluyentes, el histograma nos
permite determinar de forma rรกpida y segura que hay un nรบmero significativo de
individuos entre 25 y 30 aรฑos en nuestra poblaciรณn, mientras que el grupo mรกs pequeรฑo
estรก formado por aquellos personas cercanas a los 70 aรฑos.
Pรกg. 68
El grรกfico de caja
El diagrama de caja es una representaciรณn grรกfica que proporciona informaciรณn
sobre un conjunto de datos resaltando sus tres cuartiles. La secciรณn inferior del cuadro, o
el lado izquierdo dependiendo de la orientaciรณn del grรกfico, representa el primer cuartil,
que es el punto donde se acumula el 25% de los datos recopilados. La lรญnea media dentro
del cuadro indica el segundo cuartil o mediana, donde se acumula el 50% de los datos.
Por otro lado, la parte superior o derecha del cuadro representa el tercer cuartil.
La altura del cuadro se conoce como rango intercuartil, lo que proporciona
informaciรณn sobre la dispersiรณn de los datos. Este tipo de representaciรณn es
particularmente รบtil para identificar valores atรญpicos, que son valores que se encuentran
a 1,5 rangos intercuartiles del primer y tercer cuartil hacia los extremos del conjunto de
Pรกg. 69
datos. En la anterior figura podemos observar la variable de gastos, que no presenta
valores atรญpicos ya que no hay observaciones fuera del cuadro. Vale la pena seรฑalar que
aproximadamente la mitad de los datos se agrupan alrededor del valor 50 en tรฉrminos de
gasto, con el primer cuartil apareciendo antes de 40 y el tercer cuartil antes de 80.
Los grรกficos de gusanos
El diagrama de gusano es una herramienta extremadamente valiosa cuando se
trata de comprender visualmente la distribuciรณn de datos y cรณmo se compara con otras
variables. Sirve como un medio beneficioso para hacer comparaciones. Al examinar la
siguiente figura, se puede observar claramente cรณmo los datos correspondientes a los
gusanos azules y amarillos se distribuyen entre valores mรกs altos, mientras que los
gusanos rojos y morados constan de valores mรกs pequeรฑos.
Los grรกficos de dispersiรณn
El diagrama de dispersiรณn, tambiรฉn conocido como grรกfico de dispersiรณn, sirve
como una valiosa herramienta de control y apoyo para evaluar la presencia de una
correlaciรณn o relaciรณn entre dos variables cuantitativas. Su propรณsito radica en examinar
la posible conexiรณn de causa y efecto entre estas variables y evaluar las hipรณtesis
disponibles. Es una herramienta que presenta visualmente una comparaciรณn entre dos
conjuntos de valores en un grรกfico, siendo particularmente รบtil para representar datos
como resultados de encuestas, puntajes de exรกmenes e informaciรณn demogrรกfica.
Pรกg. 70
El diagrama de dispersiรณn se emplea en situaciones donde hay una gran cantidad
de puntos de datos diversos y el objetivo es enfatizar las similitudes dentro del conjunto
de datos. Esta tรฉcnica resulta ventajosa cuando se intenta identificar puntos de datos
excepcionales o inusuales, asรญ como para obtener informaciรณn sobre los patrones de
distribuciรณn generales que exhiben los datos.
Cuando los puntos de datos crean una banda que se extiende diagonalmente
desde la parte inferior izquierda hasta la parte superior derecha, es muy probable que
exista una correlaciรณn positiva entre las dos variables que se analizan. Por el contrario, si
la banda se extiende desde la parte superior izquierda hasta la parte inferior derecha, es
mรกs probable que se observe una correlaciรณn negativa. En situaciones en las que resulta
difรญcil discernir cualquier patrรณn discernible dentro de los datos, es probable que no exista
correlaciรณn entre las variables examinadas.
El diagrama de dispersiรณn representa grรกficamente la relaciรณn entre dos variables.
Se utiliza comรบnmente para identificar patrones o tendencias en puntos de datos. El
diagrama de dispersiรณn consta de un eje X horizontal y un eje Y vertical, donde cada
punto de datos se traza segรบn sus valores correspondientes para las dos variables. El
grรกfico resultante muestra la distribuciรณn de los puntos de datos y puede proporcionar
informaciรณn sobre la correlaciรณn, si la hay, entre las variables que se analizan. La forma o
patrรณn formado por los puntos de datos en el diagrama de dispersiรณn puede revelar
informaciรณn sobre la fuerza y direcciรณn de la relaciรณn entre las variables.
Asimismo, los diagramas de dispersiรณn se pueden mejorar con elementos visuales
adicionales, como el color o el tamaรฑo, para representar dimensiones adicionales de los
datos. Estas caracterรญsticas hacen de los diagramas de dispersiรณn una herramienta valiosa
para el anรกlisis y visualizaciรณn de datos en diversos campos, como la estadรญstica, la
economรญa y las ciencias sociales. Permiten a investigadores y analistas identificar posibles
valores atรญpicos, grupos o tendencias dentro de los datos, facilitando la interpretaciรณn y
comprensiรณn de relaciones complejas. Al representar visualmente puntos de datos, los
diagramas de dispersiรณn brindan una forma clara e intuitiva de explorar y comunicar
datos, lo que los convierte en una herramienta esencial para investigadores, educadores
y tomadores de decisiones. Tambiรฉn, se considera una herramienta valiosa utilizada en el
campo de la estadรญstica para examinar y confirmar la presencia de una correlaciรณn o
asociaciรณn entre dos variables cuantitativas. Su propรณsito es evaluar e investigar la posible
Pรกg. 71
relaciรณn causa-efecto entre estas variables y, en รบltima instancia, proporcionar evidencia
para apoyar o refutar las hipรณtesis.
Es particularmente adecuado para analizar e interpretar varios tipos de datos,
incluidos resultados de encuestas, puntajes de exรกmenes acadรฉmicos e informaciรณn
demogrรกfica. Al utilizar este componente, los usuarios pueden identificar fรกcilmente
patrones, tendencias y correlaciones entre diferentes variables, lo que les permite obtener
informaciรณn valiosa y tomar decisiones informadas basadas en los datos presentados. Ya
sea examinando la relaciรณn entre la satisfacciรณn del cliente y las caracterรญsticas del
producto o estudiando el impacto de la edad y los ingresos en el comportamiento de
compra, el componente del grรกfico de dispersiรณn proporciona un medio completo y
visualmente atractivo para comprender conjuntos de datos complejos.
Cuando los puntos de datos se organizan en una banda diagonal que se extiende
desde la esquina inferior izquierda hasta la esquina superior derecha, es muy probable
que exista una correlaciรณn positiva entre las dos variables que se analizan. Por el
contrario, si la banda de puntos de datos va desde la esquina superior izquierda hasta la
esquina inferior derecha, es muy probable que exista una correlaciรณn negativa. En los
casos en los que resulta difรญcil discernir algรบn patrรณn discernible entre los puntos de
datos, se puede inferir que no existe correlaciรณn entre las variables consideradas. En
general, los diagramas de dispersiรณn son una herramienta poderosa para visualizar y
analizar la relaciรณn entre dos variables. Proporcionan una representaciรณn clara y concisa
de los datos, lo que permite a los investigadores y analistas sacar conclusiones
significativas y tomar decisiones informadas basadas en los patrones y tendencias
observados en el grรกfico (Ortega, 2021).
Pรกg. 72
Los grรกficos de tiempo muestran informaciรณn en diferentes intervalos de tiempo.
Los datos representados en estos grรกficos consisten en valores numรฉricos y se supone que
ocurren durante un perรญodo de tiempo uniforme. Al examinar los grรกficos de tiempo, se
puede realizar un anรกlisis inicial de las caracterรญsticas de los datos de series de tiempo en
pruebas y estadรญsticas bรกsicas. Este anรกlisis permite extraer informaciรณn valiosa de los
datos antes de construir modelos. Los grรกficos de tiempo emplean varias tรฉcnicas
analรญticas, incluida la descomposiciรณn, Dickey-Fuller aumentado (ADF), correlaciones
(ACF/PACF) y anรกlisis espectral.
Pรกg. 73
Capรญtulo 3
El procesamiento de datos
Los datos son un recurso valioso que puede proporcionar una gran cantidad de
conocimientos a quienes los poseen, pero su verdadero potencial depende de la diligencia
y la experiencia de los especialistas a la hora de extraer conocimientos de ellos. A menudo,
los datos se presentan en su forma cruda, tal como fueron recopilados, lo que puede
plantear desafรญos para los analistas. A pesar de no ser ampliamente discutido en el
contexto del aprendizaje automรกtico, el preprocesamiento de datos es una etapa crucial
por la que todo conjunto de datos debe pasar y cada especialista debe reconocer su
importancia.
Es fundamental enfatizar la importancia de asegurar la calidad de los datos que
servirรกn de base a cualquier modelo y evaluar su utilidad y confiabilidad. La preparaciรณn
de datos para el anรกlisis es un tema complejo, pero existen varias tรฉcnicas bien
respaldadas que pueden mejorar significativamente la calidad de los datos. La
implementaciรณn de estas tรฉcnicas puede mejorar enormemente los datos y tener un
impacto sustancial en los resultados resultantes. Contrariamente a la creencia popular,
las personas que trabajan con datos, ya sea para anรกlisis o extracciรณn de datos, dedican la
mayor parte de su tiempo a la etapa de preprocesamiento de datos. En los รบltimos aรฑos,
ha habido un aumento de roles especializados dedicados รบnicamente al
preprocesamiento de datos para su posterior anรกlisis por parte de otros departamentos o
equipos.
Pรกg. 74
La tabla anterior (Heros Cรกrdenas, 2022), muestra un pequeรฑo conjunto de datos
que presenta varios problemas de datos, incluidos valores atรญpicos, valores faltantes y
entradas duplicadas. Un valor duplicado notable es la variable cartera total, que aparece
dos veces. Mantener ambas filas podrรญa tener un impacto negativo en el modelo, por lo
que serรญa innecesario incluir una de ellas. Ademรกs, la variable de Cartera de entidades
gubernamentales muestra cuadros con n.a., lo que indica informaciรณn faltante que podrรญa
ser valiosa para el modelo. Es importante seรฑalar que identificar datos atรญpicos requiere
una comprensiรณn y un conocimiento profundos del tema que se estรก estudiando. El รญndice
de cobertura, que indica la adecuaciรณn de las reservas bancarias para una cartera
especรญfica, es otro factor importante a considerar. Por ejemplo, un รญndice de cobertura del
200% significa que la instituciรณn ha reservado el doble de la cantidad de dinero perdida.
Por lo tanto, la inclusiรณn de valores de รญndice de cobertura del 4000% para la cartera de
entidades financieras en la tabla anterior es claramente errรณnea.
Los valores duplicados
En diversos escenarios, como cuando las empresas reciรฉn establecidas necesitan
realizar anรกlisis exploratorios de sus datos, o cuando hay presupuestos limitados para la
recopilaciรณn de informaciรณn, o incluso cuando obtener informaciรณn es un desafรญo, nos
encontramos con conjuntos de datos con informaciรณn limitada. Estos tipos de conjuntos
de datos, comรบnmente denominados conjuntos de datos pequeรฑos, plantean un mayor
riesgo cuando contienen valores duplicados. Esto es particularmente significativo en
situaciones donde el cรกlculo preciso de la probabilidad de que ocurra un evento es
esencial, ya que la presencia de valores duplicados puede afectar significativamente los
resultados de manera mรกs severa.
Pรกg. 75
Por el contrario, cuando se trata de grandes cantidades de datos, es comรบn
encontrar mรบltiples instancias de informaciรณn duplicada. En consecuencia, eliminar estos
duplicados no sรณlo mejorarรญa la calidad general del conjunto de datos sino que tambiรฉn
harรญa que su manejo y anรกlisis fuera mรกs conveniente. Como resultado, rectificar el
problema de los datos duplicados puede generar ahorros significativos en los gastos de
almacenamiento, lo que en รบltima instancia mejora la eficiencia y la velocidad del
procesamiento de la informaciรณn y facilita la ejecuciรณn de varios algoritmos.
Del mismo modo, incluso si asumimos que tener valores duplicados no afecta la
precisiรณn de nuestros modelos y aรบn produce resultados favorables, todavรญa surgen
problemas al utilizar estos valores duplicados. Imaginemos un escenario en el que
planeamos vender un nuevo producto a nuestros clientes existentes y nuestra estrategia
consiste en enviar folletos junto con obsequios personalizados a compradores
potenciales. Ahora digamos que obtenemos una lista de direcciones de un modelo que
hemos desarrollado para enviar esta informaciรณn y los obsequios acordados. Resulta
evidente que tener varios valores duplicados en esta lista generarรญa gastos innecesarios
para la empresa, lo que a su vez provocarรญa pรฉrdidas financieras. Afortunadamente, en la
era actual, es una tarea relativamente sencilla abordar este problema mediante la
implementaciรณn de instrucciones que puedan identificar con rapidez estos casos y
posteriormente eliminarlos.
Los valores atรญpicos
Los resultados de cualquier modelo de aprendizaje automรกtico pueden verse
significativamente influenciados por el mรฉtodo utilizado para recopilar datos. A pesar de
los esfuerzos por garantizar una recopilaciรณn de datos de calidad, siempre habrรก algunos
valores poco fiables. Los datos se pueden recopilar mediante entrevistas, encuestas,
observaciones y otros mรฉtodos, todos los cuales son susceptibles de errores. Por ejemplo,
la precisiรณn de los datos obtenidos a travรฉs de entrevistas y encuestas depende de la
honestidad y la calidad de las respuestas de los participantes, asรญ como de otros factores
que pueden parecer no relacionados, como el clima o la hora del dรญa. De manera similar,
las observaciones deben cumplir ciertas condiciones para que sean รบtiles en el modelo.
Para abordar esta cuestiรณn, se emplea un tratamiento atรญpico. Si, por ejemplo, alguien
proporciona informaciรณn falsa, como afirmar que tiene 20 hermanos en una encuesta, ese
Pรกg. 76
dato se eliminarรก del conjunto de datos porque es probable que sea errรณneo. Incluso si la
informaciรณn fuera cierta, todavรญa se considerarรญa un valor atรญpico y no se tendrรญa en cuenta
en el modelo.
El proceso de manejo de valores atรญpicos comienza con la detecciรณn de estas
irregularidades no deseadas. Para lograrlo, se puede confiar en un concepto estadรญstico
conocido como dispersiรณn, que ofrece varias medidas. Sin embargo, a los efectos de esta
explicaciรณn, nos concentraremos en los cuartiles y el rango intercuartil. Un enfoque
implica considerar cualquier valor que quede fuera del rango especificado en la ecuaciรณn
como valor atรญpico. En donde C1 y C3 representan el primer y el tercer cuartil,
respectivamente, y RI es el rango intercuartil.
Los valores faltantes
Con base en lo que se mencionรณ anteriormente, es evidente que los datos a menudo
existen en forma cruda, lo que genera varios problemas. Un obstรกculo comรบn que se
encuentra es la presencia de valores faltantes, que ocurre cuando se omite informaciรณn
vital de las variables, lo que resulta en una pรฉrdida de datos potencialmente
significativos. Por lo general, no es aconsejable ignorar o intentar analizar un conjunto de
datos que contiene valores faltantes, por lo que es necesario utilizar diferentes tรฉcnicas
para abordar esta complejidad.
Existen numerosos mรฉtodos disponibles para manejar los valores faltantes, pero
uno de los enfoques mรกs simples es eliminar cualquier observaciรณn o caracterรญstica que
tenga valores faltantes. Sin embargo, esta estrategia presenta ciertas desventajas,
particularmente para conjuntos de datos mรกs pequeรฑos, ya que se puede perder
informaciรณn valiosa en el proceso. Ademรกs, tambiรฉn puede ocurrir la eliminaciรณn de
caracterรญsticas importantes que contribuyen a la precisiรณn y confiabilidad de los
resultados. Normalmente, es mรกs comรบn eliminar observaciones que caracterรญsticas, y es
aconsejable eliminar caracterรญsticas sรณlo si se consideran irrelevantes.
Una tรฉcnica que puede resultar mรกs eficaz para abordar los datos faltantes es
incorporar informaciรณn coherente obtenida de los datos existentes. Al hacerlo, podemos
Pรกg. 77
retener una cantidad significativa de informaciรณn recopilada, incluidas caracterรญsticas y
observaciones, lo que en รบltima instancia facilita la aplicaciรณn de varios modelos. Sin
embargo, surge una pregunta crucial: ยฟcรณmo podemos determinar quรฉ informaciรณn es
adecuada para llenar los vacรญos que faltan? La respuesta a esta pregunta depende en gran
medida del tipo de datos que se consideren. Por ejemplo, en el caso de una variable
numรฉrica continua, es aconsejable asignar el valor medio o promedio derivado de todos
los resultados disponibles de esa variable en particular. Por otro lado, si estamos ante una
variable numรฉrica discreta que sรณlo toma valores enteros, lo mejor serรญa optar por la
moda.
Existen enfoques mรกs complejos, como el empleo de regresiones o interpolaciones
para sustituir valores. Estas tรฉcnicas, aunque mรกs avanzadas, pueden producir datos mรกs
precisos. Sin embargo, su eficiencia puede variar segรบn los atributos especรญficos del
conjunto de datos que se analiza. Estos mรฉtodos se emplean normalmente cuando los
valores faltantes tienen una importancia significativa.
La estandarizaciรณn
La estandarizaciรณn o normalizaciรณn, abarca una variedad de tรฉcnicas empleadas
para mejorar el rendimiento de los modelos de aprendizaje automรกtico mediante la
transformaciรณn de datos. Entre estas tรฉcnicas, los mรฉtodos Min-max y Z-index son
ampliamente reconocidos (Vercellis, 2011). El objetivo principal de la estandarizaciรณn es
simplificar la comparaciรณn y el anรกlisis de variables dentro de un conjunto de datos,
mitigando efectivamente las diferencias de escala. Al hacerlo, pretende evitar que los
modelos favorezcan excesivamente los atributos con valores mรกs altos, garantizando asรญ
una consideraciรณn equilibrada de todos los atributos.
El mรฉtodo Min-max es una tรฉcnica utilizada para estandarizar valores dentro de
un rango especรญfico, generalmente entre -1 y 1 o 0 y 1. En este mรฉtodo, el valor mรกs alto
de un atributo se escala a 1, mientras que el valor mรกs bajo se escala a ya sea -1 o 0. Los
otros valores luego se ajustan proporcionalmente para ajustarse al intervalo elegido. Este
ajuste se logra mediante el uso de una ecuaciรณn matemรกtica.
Pรกg. 78
Siendo:
Entretanto, el mรฉtodo Z-index emplea la transformaciรณn:
En este mรฉtodo, los valores de ฮผj y ฯƒj representan la media muestral y la desviaciรณn
estรกndar de la columna j, respectivamente. Cuando los datos siguen una distribuciรณn
normal, es muy probable que este enfoque produzca valores dentro del intervalo de (-
3,3).
La reducciรณn de los datos
Se considera que la reducciรณn de datos es una tรฉcnica valiosa empleada para
manejar y procesar eficazmente grandes cantidades de datos, garantizando que los
algoritmos de aprendizaje automรกtico funcionen de manera eficiente y que la calidad de
la informaciรณn permanezca intacta. Existen indicadores especรญficos que seรฑalan la
conveniencia de reducir el conjunto de datos, uno de los cuales es el tiempo
computacional requerido para trabajar con la informaciรณn. Minimizar este tiempo es
Pรกg. 79
crucial, ya que ciertos algoritmos poseen complejidades intrincadas y tener un conjunto
de datos mรกs pequeรฑo puede marcar una diferencia significativa en el logro de la
eficiencia. Ademรกs, seleccionar las caracterรญsticas apropiadas para usar en los modelos
contribuye a obtener resultados mรกs precisos. Por tanto, la simplicidad juega un papel
vital, ya que permite a los analistas comprender los criterios implementados. De hecho,
algunos expertos incluso estรกn dispuestos a sacrificar cierto grado de precisiรณn en favor
de la simplicidad.
La reducciรณn de datos ofrece importantes beneficios en la implementaciรณn del
modelo. Estas tรฉcnicas de optimizaciรณn son valiosas no sรณlo para aprender algoritmos
sino tambiรฉn para empresas que manejan grandes volรบmenes de datos. El objetivo
principal de estas empresas es guardar la mayor cantidad de informaciรณn posible en la
forma mรกs compacta. Si bien algunos servicios se especializan en almacenar datos en la
nube, normalmente cobran segรบn el uso del almacenamiento. Por lo tanto, reducir el
tamaรฑo del conjunto de datos se vuelve crucial para evitar gastos innecesarios en
recursos.
El PCA, consiste en una metodologรญa ampliamente utilizado para el anรกlisis de
datos con el fin de reducir atributos. Su principal objetivo es sustituir el conjunto original
de atributos por un nรบmero menor, conseguido mediante combinaciones lineales. Para
comprender el concepto y la implementaciรณn de PCA, es necesaria una comprensiรณn
sรณlida del รกlgebra lineal. Se ha demostrado que esta tรฉcnica produce resultados mรกs
precisos y confiables; sin embargo, es importante tener en cuenta que se recomienda
encarecidamente estandarizar los datos antes de aplicar PCA.
En el estudio realizado por Hull (2012), se destaca que el procedimiento PCA juega
un papel crucial en la captura de la estructura subyacente de los datos al reducir el
nรบmero de variables correlacionadas a un conjunto mรกs pequeรฑo de variables no
correlacionadas. Para iniciar el proceso de PCA, es necesario calcular una matriz de
varianza y covarianza a partir de los datos proporcionados. Esta matriz sirve como base
para cรกlculos posteriores. El paso siguiente consiste en calcular los valores propios y los
vectores propios de la matriz de varianza y covarianza.
Es importante seรฑalar que los vectores propios elegidos se normalizan para que
tengan una longitud de 1. El vector propio correspondiente al valor propio mรกs alto se
Pรกg. 80
identifica como el primer componente principal, seguido por el vector propio asociado
con el segundo valor propio mรกs alto como el segundo componente principal, y pronto.
En consecuencia, el valor propio de cada componente principal, expresado como
porcentaje de la suma total de todos los valores propios, representa la proporciรณn de la
varianza general explicada por ese componente en particular. Ademรกs, la raรญz cuadrada
de cada valor propio indica la desviaciรณn estรกndar de la puntuaciรณn del componente
correspondiente.
En tรฉrminos mรกs simples, el propรณsito de este proceso es crear nuevas variables
combinando las variables originales de manera lineal. Esto implica multiplicar los valores
de cada variable por un escalar y luego normalizar la ecuaciรณn para que la suma de todos
los escalares sea igual a 1. El objetivo es identificar las nuevas variables que tienen la
varianza mรกs alta y no estรกn correlacionadas entre sรญ. La nueva variable con la varianza
mรกs alta se denomina primer componente principal, seguida del segundo componente
principal con la siguiente varianza mรกs alta, y asรญ sucesivamente.
Cuando se trata de variaciones, este mรฉtodo se ve muy afectado por los valores
atรญpicos, por lo que es recomendable abordarlos de antemano. De manera similar, las
variaciones se evalรบan en funciรณn de las escalas de las variables, lo que significa que todas
las variables deben estandarizarse para garantizar resultados consistentes. Es importante
seรฑalar que, si bien diferentes programas informรกticos pueden producir los mismos
resultados de PCA, los signos de estos resultados pueden variar, lo que en รบltima
instancia no tiene ningรบn impacto en la interpretaciรณn general.
Hay varios mรฉtodos adicionales disponibles para reducir la dimensionalidad,
incluido kPCA, que es una extensiรณn de PCA que utiliza mรฉtodos del kernel. Otra tรฉcnica
es la descomposiciรณn de valores singulares, que permite descomponer una matriz en
otras matrices. El anรกlisis de componentes independientes es otro mรฉtodo que se puede
utilizar. Todas estas tรฉcnicas se pueden encontrar en la biblioteca Scikitlearn para Python.
De manera similar, existen herramientas como LASSO, una tรฉcnica de anรกlisis de
regresiรณn que selecciona variables especรญficas para mejorar la precisiรณn de un modelo
estadรญstico.
El aprendizaje no supervizado
Pรกg. 81
El aprendizaje no supervisado, es un campo dentro del aprendizaje automรกtico
que se centra en descubrir patrones ocultos dentro de un conjunto de datos. Estos
patrones suelen ser difรญciles de discernir mediante el anรกlisis manual, incluso para
personas con amplia experiencia y conocimientos. El objetivo principal del aprendizaje
no supervisado es construir un modelo robusto capaz de identificar y comprender con
precisiรณn estos patrones intrincados dentro de los datos. A diferencia de otras categorรญas
de aprendizaje, el aprendizaje no supervisado normalmente implica trabajar con
informaciรณn sin etiquetar, lo que significa que no hay etiquetas o clasificaciones
preexistentes adjuntas a los datos.
En el campo del aprendizaje no supervisado, existe una categorรญa de modelos
conocidos como modelos de agrupaciรณn. Estos modelos tienen como objetivo identificar
grupos de puntos de datos que comparten una mayor similitud dentro de su propio
grupo en comparaciรณn con otros grupos. Si bien la determinaciรณn de la similitud
generalmente se basa en medir distancias entre puntos de datos, tambiรฉn es factible
agrupar datos segรบn variables categรณricas.
El aprendizaje no supervisado tiene una importancia significativa en lo que
respecta a la exploraciรณn e identificaciรณn de patrones dentro de grandes cantidades de
informaciรณn. Un ejemplo ilustrativo de esto se encuentra en el contexto de la clientela de
una empresa, donde ya se conocen ciertos atributos de los clientes. Al emplear tรฉcnicas
de aprendizaje no supervisadas, resulta factible agrupar y categorizar a estos clientes en
funciรณn de sus similitudes, lo que permite a la empresa dirigirse y comercializar
eficazmente sus productos a grupos especรญficos. Ademรกs, a travรฉs del anรกlisis de los
comportamientos de compra colectivos dentro de un grupo particular, la empresa
tambiรฉn puede hacer recomendaciones informadas a las personas dentro del grupo,
basadas en los productos que sus pares han comprado con frecuencia.
Para completar la tarea de agrupaciรณn, existen varios algoritmos y enfoques, cada
uno con sus propias ventajas รบnicas. Al seleccionar el modelo apropiado en funciรณn de
las caracterรญsticas de los datos que se analizan, se pueden minimizar las desventajas de
estos algoritmos. Los enfoques principales incluyen algoritmos jerรกrquicos, particionales
y basados en densidad. Los algoritmos jerรกrquicos implican minimizar la distancia o
maximizar las medidas de similitud y pueden clasificarse ademรกs como aglomerativos o
disociativos.
Pรกg. 82
Por otro lado, los algoritmos particionales requieren un conocimiento previo del
nรบmero deseado de grupos y tienen como objetivo optimizar criterios especรญficos o
funciones objetivo. Por รบltimo, los mรฉtodos basados en densidad utilizan diversas
tรฉcnicas, como grรกficos, histogramas y nรบcleos, para determinar los grupos.
Hay varios algoritmos de agrupamiento disponibles para su uso, incluidos K-
Means, DBSCAN, propagaciรณn de afinidad, cambio medio, agrupamiento espectral,
agrupamiento jerรกrquico y otros (como se muestra en la figura 2.10). Para este estudio en
particular, se emplearon los algoritmos K-Means y DBSCAN, ya que se incluyen en las
categorรญas de mรฉtodos particionales y de densidad, respectivamente. Sin embargo, vale
la pena seรฑalar que la biblioteca Scikit-learn para Python ofrece una variedad de otros
algoritmos de agrupaciรณn, con documentaciรณn completa y ejemplos prรกcticos sobre cรณmo
implementarlos de manera efectiva.
El K-means
El aprendizaje no supervisado o las tรฉcnicas de agrupamiento implica
invariablemente mencionar el algoritmo K-means (tambiรฉn K-medias), introducido por
MacQueen en 1967. Sin duda, este algoritmo ha ganado una inmensa popularidad en
estos dominios, principalmente debido a su sencilla implementaciรณn. y requisitos
computacionales mรญnimos. Estos dos atributos esenciales lo convierten en el mรฉtodo
preferido tanto para principiantes como para profesionales experimentados.
El K-means, se considera un mรฉtodo dentro de la familia de mรฉtodos de
agrupaciรณn que tiene como objetivo categorizar las observaciones en funciรณn de sus
caracterรญsticas compartidas y distinguirlas de otros grupos con peculiaridades distintas.
Para lograr este objetivo, es fundamental que los datos no estรฉn etiquetados de antemano,
ya que K-means se basa en identificar puntos en comรบn entre las observaciones. Este
mรฉtodo ha demostrado ser muy preciso y exitoso, particularmente cuando se aplica a
grandes bases de datos. Su versatilidad es evidente en su uso generalizado en diversos
campos de interรฉs. Por ejemplo, las empresas suelen utilizar K-means para segmentar su
base de clientes, lo que les permite diseรฑar estrategias y mejorar sus operaciones
comerciales de manera efectiva.
Por lo tanto, K-means es un tipo de algoritmo de agrupamiento que se incluye en
la categorรญa de agrupamiento basado en prototipos. En espaรฑol se le conoce como
Pรกg. 83
clustering basado en prototipos, indicando que un prototipo, que tรญpicamente es un punto
dentro del conjunto de datos, representa a cada grupo similar. Este prototipo es
comรบnmente el centroide o centro del grupo, de ahรญ el nombre "K-medias", donde K se
refiere al nรบmero de centros y las medias representan el promedio o media de los puntos
de datos dentro de cada grupo.
Existe un inconveniente importante asociado con las K-medias, que es el requisito
de especificar el nรบmero exacto de grupos que el mรฉtodo debe identificar desde el
principio. Este desafรญo se puede aliviar mapeando visualmente y analizando los datos
para tener una idea inicial de cuรกl podrรญa ser un nรบmero adecuado de conglomerados. Si
bien, cuando se trata de conjuntos de datos grandes y complejos que constan de
numerosas variables, pueden surgir problemas de visualizaciรณn, lo que hace
extremadamente difรญcil determinar visualmente con precisiรณn el nรบmero รณptimo de
grupos. Para abordar este problema, se emplean varias estrategias junto con K-means,
como el mรฉtodo del codo, la puntuaciรณn de silueta y el anรกlisis de componentes
principales (PCA), que se explicรณ en la secciรณn anterior. Es importante seรฑalar que, si bien
existen numerosas tรฉcnicas disponibles, ninguna ha sido universalmente reconocida
como superior a las demรกs.
Estos pasos se repiten iterativamente hasta que se cumple una condiciรณn de
parada. Hay varias formas de determinar cuรกndo detener el proceso. Un mรฉtodo consiste
en comprobar si los centroides ya no se pueden reubicar, ya que siempre se ubican en la
misma posiciรณn. Otro enfoque es establecer un nรบmero mรกximo de iteraciones, despuรฉs
de las cuales el algoritmo debe terminar.
Dadas las caracterรญsticas inherentes de K-means, es importante reconocer que los
resultados de esta implementaciรณn pueden no ser consistentes. Los grupos finales
formados pueden diferir dependiendo de la posiciรณn inicial de los centroides, por lo que
es aconsejable establecer una estrategia para determinar quรฉ resultados retener. En la
siguiente figura, el lado izquierdo muestra una colecciรณn de puntos de datos sin ningรบn
agrupamiento, mientras que el lado derecho muestra el mismo conjunto de datos despuรฉs
de haber sido agrupado usando el algoritmo K-means.
Pรกg. 84
El modelo
K-medias se puede definir de una manera mรกs formal y matemรกtica como el
proceso de selecciรณn de centroides que minimicen la suma de errores cuadrados entre
estos centroides y cada observaciรณn presente en el grupo respectivo.
En este contexto, la variable xi representa las observaciones individuales, mientras
que ฮผj representa el valor promedio de las observaciones dentro de un grupo especรญfico,
que tambiรฉn puede verse como el punto central o centroide de ese grupo. La letra C, por
su parte, denota el grupo que se ha formado en base a ciertos criterios o caracterรญsticas.
El mรฉtodo del codo
Como se indicรณ anteriormente, un inconveniente del algoritmo K-means es el
requisito de predefinir el nรบmero de clรบsteres para la particiรณn de datos. Para abordar
este problema, el mรฉtodo del codo ofrece una soluciรณn al determinar visualmente el
nรบmero ideal de segmentos para la separaciรณn de datos.
La tรฉcnica implica ejecutar el mรฉtodo K-means varias veces, utilizando cada vez
un nรบmero consecutivo diferente de grupos para la segmentaciรณn. Luego, se calcula la
suma de las distancias al cuadrado entre los centros del grupo y sus respectivos puntos
Pรกg. 85
de datos. Es importante seรฑalar que a medida que aumenta el nรบmero de grupos, esta
mรฉtrica disminuye. Esto se debe a que al haber mรกs grupos, los centros estรกn mรกs cerca
de cada observaciรณn. Por lo tanto, seleccionar el algoritmo con la menor distancia o error
no es la soluciรณn deseada. En cambio, el objetivo es encontrar el nรบmero de grupos que
muestran el cambio mรกs significativo en las distancias, lo que lleva a disminuciones mรกs
pequeรฑas.
Cuando los valores que representan la distancia se trazan en un grรกfico, la forma
resultante se puede comparar con un brazo. La secciรณn que se parece visualmente al codo
se considera el nรบmero รณptimo de agrupaciones para el modelo. Sin embargo, hay casos
en los que esta interpretaciรณn puede no ser evidente de inmediato, por lo que se puede
emplear un enfoque analรญtico. En la proxima figura, se puede observar como el punto de
interรฉs se ubica en un valor de 5, lo que indica que el nรบmero ideal de grupos en este
escenario tambiรฉn serรญa 5.
El DBSCAN
El algoritmo DBSCAN, tambiรฉn conocido como agrupaciรณn espacial de
aplicaciones con ruido basada en densidad, ha ganado una popularidad significativa en
el campo de los algoritmos de agrupaciรณn. Inicialmente fue presentado por Martin. E.,
Kriegel, H., Sander, J., Xu, X. en 1996. La caracterรญstica distintiva de DBSCAN radica en
Pรกg. 86
su capacidad para agrupar puntos de datos segรบn su densidad. En otras palabras, si se
encuentra que un conjunto de puntos estรกn muy prรณximos entre sรญ, se asignarรกn al mismo
grupo. Esta separaciรณn se produce debido a la escasez de puntos entre los grupos, lo que
da como resultado grupos distintos.
Este mรฉtodo posee varias caracterรญsticas distintas, siendo la principal que no
impone ninguna expectativa sobre las formas o estructuras que deben tener los grupos.
Si bien algunos modelos pueden dar como resultado grupos con forma esfรฉrica, el
algoritmo DBSCAN permite infinitas posibilidades de formas de grupo siempre que
mantengan una densidad mรญnima requerida. A diferencia de K-means, otra diferencia
notable es que no es necesario especificar la cantidad de grupos que se generarรกn al final.
Sin embargo, para garantizar la ejecuciรณn adecuada del algoritmo DBSCAN y lograr
resultados precisos, se deben especificar otros dos parรกmetros, aunque no es necesario
indicar explรญcitamente el nรบmero exacto de grupos.
El requisito inicial es el nรบmero mรญnimo de puntos necesarios para que se forme
un grupo. Este criterio determina cuรกntos puntos deben estar lo suficientemente cerca
entre sรญ para ser considerados un grupo. El nรบmero especรญfico de puntos mรญnimos
requeridos puede variar segรบn el conjunto de datos, el problema en cuestiรณn o las
preferencias de la empresa que solicita la agrupaciรณn. Es posible determinar el nรบmero
รณptimo de puntos mรญnimos para el mejor rendimiento del modelo, pero los requisitos
especรญficos pueden influir en esta decisiรณn. Por ejemplo, una empresa que atiende a varios
tipos de clientes puede querer ejecutar diferentes estrategias publicitarias para cada
grupo. En tal caso, si la empresa tiene una gran cantidad de clientes, puede decidir lanzar
campaรฑas รบnicamente para grupos que consten de mรกs de 10.000 clientes. En
consecuencia, el nรบmero mรญnimo de puntos necesarios para formar un grupo en este
escenario serรญa 10.000.
El siguiente parรกmetro, conocido como รฉpsilon, juega un papel crucial a la hora de
determinar la distancia mรกxima entre dos puntos para que se clasifiquen dentro del
mismo grupo. Como se mencionรณ anteriormente, DBSCAN opera segรบn la densidad de
puntos, pero no determina cuรกndo los puntos estรกn lo suficientemente cerca como para
ser considerados parte del mismo grupo. Este parรกmetro requiere un anรกlisis cuidadoso
o un enfoque estratรฉgico para definirlo, ya que establecerlo demasiado pequeรฑo puede
dar como resultado que ningรบn par de puntos cumpla la condiciรณn, mientras que
Pรกg. 87
establecerlo demasiado grande puede hacer que todo el conjunto de datos pertenezca a
un solo grupo. La figura a continuaciรณn proporciona un ejemplo de un conjunto de datos
que se ha agrupado utilizando DBSCAN.
El modelo
La densidad se puede describir como la medida de quรฉ tan estrechamente
empaquetados o concentrados estรกn los puntos dentro de un radio determinado,
denotado como ฮต. De acuerdo con los principios del algoritmo DBSCAN, el etiquetado
de cada punto individual estรก determinado por un conjunto de condiciones especรญficas:
โ€ข Un punto central se define por la presencia de un nรบmero mรญnimo de puntos
vecinos dentro de un radio dado ฮต.
โ€ข Un punto lรญmite se refiere a un punto que estรก muy cerca de un punto central
dentro de una cierta distancia (ฮต), pero que tiene un nรบmero menor de puntos
cercanos (MinPoints) dentro de esa distancia.
โ€ข Todos los puntos que no forman parte del conjunto principal se clasifican como
puntos de ruido.
Despuรฉs de nombrar los puntos, DBSCAN se puede resumir en dos pasos:
Pรกg. 88
โ€ข Crea grupos distintos para cada punto central individual o grupos de puntos
centrales que estรฉn vinculados entre sรญ (los grupos se consideran conectados si
estรกn ubicados a una distancia mayor de ฮต).
โ€ข El proceso consiste en asignar cada punto fronterizo al grupo que corresponde a
su punto central.
Los otros modelos de aprendizaje no supervisado
โ€ข El Affinity Propagation, un modelo de aprendizaje automรกtico, consiste en una
tรฉcnica de aprendizaje no supervisado que facilita la creaciรณn de grupos o clรบsteres
basados en dos matrices. La matriz de responsabilidad evalรบa el nivel de
responsabilidad o influencia de cada observaciรณn dentro del conjunto de datos,
mientras que la matriz de disponibilidad determina el nรบmero de puntos vecinos
asociados con cada observaciรณn. En particular, el modelo no requiere
especificaciรณn previa del nรบmero de grupos resultantes, lo que permite
flexibilidad en el proceso de agrupaciรณn.
โ€ข Mean Shift, un algoritmo de agrupamiento que opera buscando regiones de alta
densidad en los datos. Este enfoque se basa en el concepto de centroides, con el
objetivo de determinar el punto central รณptimo para cada grupo. Los centroides se
actualizan iterativamente calculando el promedio de las observaciones dentro de
la ventana evaluada. Una ventaja de Mean Shift es que no requiere especificaciรณn
previa del nรบmero de clรบsteres.
Los coeficientes de evaluaciรณn
Los coeficientes de evaluaciรณn tienen un impacto significativo en el avance de los
modelos de aprendizaje automรกtico, ya que brindan informaciรณn valiosa sobre el
rendimiento y la eficacia de los modelos implementados. Estos coeficientes nos permiten
determinar la utilidad de los modelos y evaluar su efectividad. En el รกmbito del
aprendizaje no supervisado, existen numerosas medidas de evaluaciรณn que se utilizan
para calificar los algoritmos de aprendizaje automรกtico. Entre estas medidas, el
coeficiente de silueta, el coeficiente de Calinski y el coeficiente de Davies son
ampliamente reconocidos como los coeficientes mรกs populares y ampliamente utilizados.
Pรกg. 89
El coeficiente de silueta:
Este coeficiente toma un valor en el rango de -1 a 1, donde -1 significa que las
agrupaciones son incorrectas y 1 significa que son correctas. La forma de determinar el
coeficiente de silueta es de la siguiente manera:
En este contexto:
โ€ข "a" representa la distancia promedio entre una observaciรณn particular y todas las
demรกs observaciones dentro del mismo grupo.
โ€ข Por otro lado, "b" representa la distancia promedio entre una observaciรณn
especรญfica y todas las demรกs observaciones en el grupo vecino mรกs cercano.
El coeficiente de Calinski
El coeficiente de Calinski nos dice que cuanto mayor es el coeficiente, mejor
calidad de agrupaciรณn tiene el modelo. Cรณmo obtener el coeficiente de Calinski:
En donde:
โ€ข E representa el conjunto de datos,
Pรกg. 90
โ€ข mientras que nE representa el nรบmero de muestras en el conjunto de datos,
โ€ข k se refiere al nรบmero de grupos en los que se categorizaron las observaciones,
โ€ข Bk representa la matriz de dispersiรณn entre estos grupos,
โ€ข mientras que Wk representa la matriz de dispersiรณn dentro de un grupo especรญfico,
โ€ข tr() calcula la traza de una matriz, que es esencialmente la suma de sus elementos
diagonales,
โ€ข q denota un grupo particular,
โ€ข mientras que Cq representa el conjunto de puntos dentro de ese grupo,
โ€ข cq significa el centro de un grupo especรญfico,
โ€ข mientras que cE representa el centro de todo el conjunto de datos E,
โ€ข por รบltimo, nq se refiere al nรบmero de puntos dentro de un grupo determinado.
El coeficiente de Davies
El nรบmero รณptimo de grupos se determina encontrando el valor del coeficiente de
Davies que se minimiza. El coeficiente de Davies representa la similitud promedio entre
cada grupo Ci (donde i es un nรบmero entre 1 y k) y su grupo mรกs similar Cj. En este
contexto, la similitud se mide por el valor de Rij. Para calcular el coeficiente de Davies-
Bouldin utilizamos esta informaciรณn:
En donde:
Pรกg. 91
La distancia promedio entre cada punto del grupo i y su centro correspondiente se denota
como sรญ. Ademรกs, la distancia entre los centros de los grupos i y j se representa como dij.
El aprendizaje supervisado
El aprendizaje supervisado, es un รกrea especรญfica dentro del campo del aprendizaje
automรกtico que se centra en utilizar la informaciรณn disponible sobre un conjunto de datos
determinado para crear un modelo. Este modelo estรก diseรฑado para tomar un conjunto
de caracterรญsticas y predecir con precisiรณn una clasificaciรณn o regresiรณn especรญfica para ese
conjunto en particular. En el aprendizaje supervisado, el conjunto de datos normalmente
contiene una variable objetivo que ya ha sido etiquetada y el objetivo es asignar la misma
etiqueta a datos nuevos sin etiquetar. Esta asignaciรณn se logra mediante un proceso
llamado entrenamiento, donde el modelo se expone a la mayorรญa o a la totalidad del
conjunto de datos, segรบn el tamaรฑo de la muestra.
El aprendizaje supervisado se considera un arsenal muy completo de tรฉcnicas que
permiten obtener conocimientos y perspectivas a partir de la informaciรณn disponible.
Implica estudiar las relaciones entre varias variables y una variable objetivo especรญfica. El
aspecto crucial de este enfoque de aprendizaje es la utilizaciรณn de este conocimiento
adquirido para predecir el comportamiento de la variable de interรฉs ante diferentes
escenarios que involucran a las otras variables. Esta capacidad predictiva se vuelve
particularmente valiosa en aplicaciones como las predicciones de pagos
predeterminados, ya que puede generar ganancias financieras sustanciales para la
instituciรณn que implementa esta metodologรญa de aprendizaje.
La computadora utiliza los datos para adquirir conocimiento y comprender
patrones, lo que le permite hacer predicciones sobre la variable que nos interesa. Esta
variable puede tomar diferentes formas, incluyendo nominal (categรณrica), binaria (sรญ/no),
numรฉrica e incluso texto. La elecciรณn del modelo depende del tipo de variable que
intentamos predecir y nuestro objetivo es encontrar el modelo mรกs adecuado para
nuestras necesidades especรญficas. Entre los diversos tipos de aprendizaje supervisado,
este estudio se centrarรก principalmente en dos tรฉcnicas altamente efectivas y de uso
comรบn: regresiรณn logรญstica y รกrboles de decisiรณn. Sin embargo, vale la pena mencionar
que existen otros algoritmos de aprendizaje supervisado disponibles.
Pรกg. 92
Es evidente que para poder identificar con precisiรณn el comportamiento potencial
de nuevos datos es fundamental haber recibido una formaciรณn previa. Ademรกs, la calidad
de los datos juega un papel importante en este proceso, ya que impacta directamente en
la precisiรณn y confiabilidad del etiquetado. Ademรกs, a medida que pasa el tiempo, es
imperativo monitorear consistentemente los resultados y alimentar continuamente al
modelo con nueva informaciรณn y conocimientos. Este conocimiento y capacitaciรณn
continuos permiten que el modelo mejore su rendimiento con el tiempo, lo que en รบltima
instancia conduce a resultados mรกs favorables y precisos.
Entrenamiento y pruebas
Despuรฉs de completar un preprocesamiento exhaustivo de los datos y realizar un
anรกlisis exploratorio integral, el siguiente paso es elegir cuidadosamente las variables
independientes que se utilizarรกn para explicar los patrones y tendencias en la variable
objetivo. Es muy recomendable, y de hecho casi necesario, dividir nuestro conjunto de
datos en dos grupos distintos: un conjunto de entrenamiento y un conjunto de prueba.
Esta divisiรณn debe basarse en la valoraciรณn y juicio cualitativo del analista, ya que
depende de las caracterรญsticas especรญficas y la naturaleza de los datos.
Un posible enfoque, cuando se trata de un gran conjunto de datos, es dividirlo en
dos subconjuntos utilizando una proporciรณn de 90/10 o incluso 99/1. En este escenario,
alrededor del 90% o el 99% de los datos se asignarรญan a fines de capacitaciรณn, mientras
que el porcentaje restante se utilizarรญa para evaluaciรณn. La razรณn detrรกs de esta divisiรณn
es que con una cantidad sustancial de datos, habrรก suficientes instancias para la
evaluaciรณn incluso con un porcentaje pequeรฑo, lo que permitirรก una capacitaciรณn mรกs
efectiva. Es importante seรฑalar que el tรฉrmino "enorme" es subjetivo y puede variar segรบn
el contexto. Sin embargo, este enfoque resulta beneficioso cuando se trata de conjuntos
de datos que contienen cientos de miles o incluso millones de observaciones. Al utilizar
una parte importante de los datos para el entrenamiento, el modelo puede aprender a
reconocer y manejar incluso casos raros o poco comunes que de otro modo se pasarรญan
por alto si el conjunto de pruebas fuera mรกs grande.
Si bien, es importante tener en cuenta que si el conjunto de datos es muy pequeรฑo,
puede ser mรกs apropiado dividir el conjunto en 100/0, ya que el enfoque mรกs lรณgico serรญa
utilizar todos los datos disponibles con fines de capacitaciรณn. En tal escenario, dividir los
Pรกg. 93
datos de manera mรกs uniforme podrรญa resultar en evaluaciones engaรฑosas, ya sean
positivas o negativas, dependiendo de los datos especรญficos seleccionados para la
capacitaciรณn. En consecuencia, estas evaluaciones no serรญan particularmente confiables.
Ademรกs, cabe mencionar que la determinaciรณn de lo que constituye un pequeรฑo conjunto
de datos es subjetiva y varรญa entre los analistas. Esto es especialmente comรบn cuando se
trata de informaciรณn que las empresas recopilan mensual, trimestral o anualmente,
particularmente cuando el perรญodo de recopilaciรณn de datos es relativamente corto.
Las divisiones mรกs utilizadas para el anรกlisis de datos suelen dividirse en
proporciones 80/20 o 70/30. Aunque, es importante seรฑalar que la decisiรณn รณptima para
las proporciones de divisiรณn depende en gran medida del conjunto de datos especรญfico y
del anรกlisis cualitativo realizado por la persona a cargo. Ademรกs de las divisiones
comรบnmente utilizadas, tambiรฉn existe una tercera divisiรณn conocida como datos de
validaciรณn. Aunque esta divisiรณn en particular no es directamente relevante para este
trabajo especรญfico o sus aplicaciones, vale la pena reconocer su existencia.
Sobreajustar un modelo es un concepto crucial de entender, ya que se refiere a una
situaciรณn en la que el modelo estรก tan bien ajustado a los ejemplos de entrada etiquetados
que no logra predecir con precisiรณn los resultados de los ejemplos de datos no etiquetados
que no se incluyeron en la fase de entrenamiento. Este fenรณmeno puede ser problemรกtico
ya que indica que el modelo esencialmente ha memorizado los datos de entrenamiento
en lugar de generalizar patrones y relaciones que pueden aplicarse a datos nuevos e
invisibles. En otras palabras, el sobreajuste da como resultado un modelo excesivamente
complejo y demasiado especรญfico para los datos de entrenamiento, lo que conduce a un
rendimiento deficiente cuando se enfrenta a ejemplos invisibles. Por tanto, es vital
abordar el sobreajuste para garantizar la fiabilidad y eficacia de los modelos de
aprendizaje automรกtico.
La regresiรณn lineal
La regresiรณn lineal es un mรฉtodo ampliamente reconocido y ampliamente
utilizado en el aprendizaje automรกtico supervisado. Establece una conexiรณn lineal entre
varios atributos y un resultado o etiqueta especรญfica. Durante la fase de entrenamiento de
un modelo se adquieren los valores รณptimos de sus parรกmetros. En el aprendizaje
supervisado, lograr esto implica emplear un algoritmo que analiza numerosas instancias
Pรกg. 94
etiquetadas y tiene como objetivo identificar los valores de estos parรกmetros del modelo
que minimizan el componente de error.
Los algoritmos de regresiรณn se utilizan para modelar la conexiรณn entre varias
variables de entrada mediante el empleo de una medida de error, que pretendemos
reducir mediante un proceso iterativo para mejorar la precisiรณn de las predicciones. En
esta discusiรณn, profundizaremos en dos tipos especรญficos de algoritmos de regresiรณn:
regresiรณn lineal y regresiรณn logรญstica. Vale la pena seรฑalar que la principal distinciรณn entre
estos dos radica en la naturaleza de su producciรณn. La regresiรณn logรญstica se emplea
cuando la salida es discreta, mientras que la regresiรณn lineal se utiliza cuando la salida es
continua.
โ€ข La variable y representa la etiqueta o el resultado que nos interesa.
โ€ข Las caracterรญsticas xi describen la etiqueta o las variables independientes.
โ€ข La pendiente de la lรญnea, denotada como ฮฒi con i = 1, 2, ..., k, se conoce comรบnmente
como peso. Es uno de los dos parรกmetros que deben aprenderse del modelo
durante el proceso de capacitaciรณn para poder utilizar el modelo en futuras
inferencias.
โ€ข El sรญmbolo e representa el punto de intersecciรณn de la lรญnea en el eje, tambiรฉn
conocido como error.
La regresiรณn logรญstica
La regresiรณn logรญstica es un tipo de algoritmo de clasificaciรณn que se incluye en el
รกmbito de las tรฉcnicas de aprendizaje supervisado. A pesar de su aparente diferencia, es
esencialmente un modelo lineal empleado para segregar un problema en dos categorรญas
distintas utilizando variables predictivas como puntos de referencia. Estas variables
predictivas se integran en una ecuaciรณn que se asemeja a la regresiรณn lineal, con el
objetivo de determinar el ajuste รณptimo. En realidad, la regresiรณn logรญstica tambiรฉn se
puede emplear para abordar problemas que abarcan mรบltiples clases, ampliando asรญ su
aplicabilidad.
Pรกg. 95
Crear una implementaciรณn exitosa de la regresiรณn logรญstica es sin duda una tarea
compleja que va mรกs allรก de los lรญmites de este proyecto en particular. No obstante, es
crucial abordar ciertos factores que es esencial considerar para lograr resultados
satisfactorios. Para comprender plenamente estos aspectos, es imperativo poseer una
sรณlida comprensiรณn de los principios matemรกticos y estadรญsticos.
El modelo logit, tambiรฉn conocido como modelo de regresiรณn logรญstica, opera
evaluando la probabilidad de que cada observaciรณn pertenezca a una categorรญa especรญfica.
Esta probabilidad estรก influenciada por los valores de las variables predictoras.
Posteriormente, las observaciones se categorizan en funciรณn de la probabilidad calculada.
El รกrbol de decisiรณn
La fama y popularidad de los modelos de รกrboles de decisiรณn, especรญficamente los
รกrboles de clasificaciรณn y los รกrboles de regresiรณn, son ampliamente reconocidas. Ademรกs,
tambiรฉn han adquirido importante renombre la ampliaciรณn y modificaciรณn de estos
modelos, conocidos como Bosques de Clasificaciรณn y Bosques de Regresiรณn. Una de las
principales razones del alto รญndice de aprobaciรณn de estos algoritmos es su simplicidad
visual, que permite a los analistas comprender e interpretar fรกcilmente los datos de forma
intuitiva. Estos modelos son particularmente fรกciles de usar cuando se presentan
grรกficamente.
A diferencia de otros algoritmos, los รกrboles de decisiรณn no requieren un
preprocesamiento extenso del conjunto de datos. Sin embargo, es crucial realizar dicho
preprocesamiento debido a su susceptibilidad a manejar grandes cantidades de datos.
Ademรกs, existe una amplia gama de enfoques para implementar este mรฉtodo, como la
tรฉcnica de inducciรณn de arriba hacia abajo de รกrboles de decisiรณn. Este proceso se inicia
designando cada observaciรณn como el nodo raรญz del รกrbol, y estos nodos luego se
incorporan a la lista de nodos activos, conocida como L.
La matriz de confusiรณn
Pรกg. 96
La matriz de confusiรณn es una herramienta valiosa en el campo del aprendizaje
automรกtico que nos permite evaluar la eficacia y precisiรณn de los modelos bajo
evaluaciรณn. Esencialmente, esta matriz proporciona una visiรณn integral de la
comparaciรณn entre los resultados predichos generados por el modelo y los valores reales.
Al organizar estas predicciones en columnas y los valores reales en filas, obtenemos una
comprensiรณn clara de cรณmo el modelo se desempeรฑรณ en sus predicciones. Esta matriz
sirve como una ayuda crucial para evaluar y ajustar los modelos de aprendizaje
automรกtico para un rendimiento รณptimo.
Esta herramienta abarca cuatro categorรญas: verdaderos positivos, verdaderos
negativos, falsos positivos y falsos negativos. Los verdaderos positivos se refieren a casos
en los que el modelo predijo con precisiรณn un resultado positivo, que resultรณ ser
verdadero. Los verdaderos negativos son casos en los que el modelo predijo
correctamente un resultado negativo. Por otro lado, los falsos positivos ocurren cuando
el modelo predice incorrectamente un resultado positivo, mientras que los falsos
negativos ocurren cuando el modelo predice incorrectamente un resultado negativo. Para
ilustrar, consideremos un escenario en el que un banco emplea un modelo predictivo para
determinar quรฉ clientes realizarรกn sus pagos mensuales. En este caso, un verdadero
positivo serรญa cuando el modelo predice correctamente que un cliente pagarรก y realmente
lo hace. Un verdadero negativo ocurrirรญa cuando el modelo predice con precisiรณn que un
cliente no pagarรก. Un falso positivo surgirรญa si el modelo predice incorrectamente que un
cliente pagarรก, pero en realidad no lo hace. Por รบltimo, un falso negativo ocurrirรญa si el
modelo predice errรณneamente que un cliente no pagarรก, pero en realidad sรญ lo hace.
โ€ข La mรฉtrica de exactitud evalรบa la cantidad de pronรณsticos correctos sumando los
valores verdaderos positivos y verdaderos negativos del nรบmero total de
pronรณsticos realizados.
โ€ข La precisiรณn es una mรฉtrica que evalรบa la exactitud de las predicciones positivas
determinando la proporciรณn de verdaderos positivos con respecto a la suma total
de verdaderos positivos y falsos positivos. En tรฉrminos mรกs simples, mide quรฉ tan
bien un modelo o sistema identifica correctamente instancias positivas entre todas
las instancias que etiqueta como positivas.
Pรกg. 97
โ€ข La sensibilidad, tambiรฉn conocida como tasa de verdaderos positivos, se refiere a
la capacidad de una prueba o modelo de diagnรณstico para detectar con precisiรณn
casos positivos. Se calcula dividiendo el nรบmero de verdaderos positivos (casos
positivos correctamente identificados) por la suma de verdaderos positivos y
falsos negativos (casos positivos clasificados errรณneamente como negativos). En
tรฉrminos mรกs simples, la sensibilidad indica la eficacia de una prueba para
identificar correctamente a las personas que realmente padecen la afecciรณn que se
estรก examinando. Ademรกs, la sensibilidad tambiรฉn se puede interpretar como la
probabilidad de que una persona con un resultado positivo en la prueba realmente
tenga la afecciรณn.
โ€ข El concepto de especificidad es similar al de sensibilidad, pero se centra en la
identificaciรณn precisa de los casos negativos. En otras palabras, la especificidad
mide la proporciรณn de verdaderos negativos entre todos los casos negativos,
incluidos tanto los verdaderos negativos como los falsos positivos. Tambiรฉn puede
interpretarse como la probabilidad de que un caso negativo sea correctamente
identificado como negativo.
โ€ข El F1 score es una mรฉtrica que combina los conceptos de precisiรณn y sensibilidad
en una sola medida. Se calcula mediante la fรณrmula 2โˆ—(Sensibilidad โˆ—
Precisiรณn)/(Sensibilidad + Precisiรณn). Para que un modelo se considere aceptable,
debe tener una puntuaciรณn F1 de al menos 80. Esto significa que el modelo es capaz
de lograr un buen equilibrio entre identificar correctamente las instancias positivas
(sensibilidad) y clasificarlas con precisiรณn (precisiรณn). Al utilizar F1 score,
podemos evaluar el rendimiento general de un modelo de una manera mรกs
completa, teniendo en cuenta tanto los falsos positivos como los falsos negativos.
Al tener en cuenta estas mรฉtricas, un analista obtiene informaciรณn valiosa sobre el
rendimiento de su modelo y puede determinar sus objetivos principales. Al aprovechar
estas medidas, los analistas pueden evaluar eficazmente si estรกn progresando y logrando
los resultados deseados, garantizando asรญ que estรกn en la trayectoria correcta.
Pรกg. 98
Capรญtulo 4
Redes neuronales
El cerebro humano es ampliamente considerado como el sistema informรกtico mรกs
complejo que existe. Si bien tanto las computadoras como los humanos se destacan en
diversas tareas, hay ciertas actividades que son naturales para los humanos pero que
resultan desafiantes para las computadoras, y viceversa. Por ejemplo, reconocer el rostro
de una persona es una tarea relativamente sencilla para los humanos, pero presenta
dificultades para las computadoras. Por otro lado, gestionar la contabilidad de una
empresa es una tarea compleja y costosa para un experto en contabilidad, pero un
programa informรกtico bรกsico puede realizarla con facilidad.
Las notables capacidades del cerebro humano, incluida su capacidad para pensar,
retener informaciรณn y resolver problemas, han despertado el interรฉs de innumerables
cientรญficos que buscan replicar su funcionamiento en una computadora. Esta bรบsqueda
interdisciplinaria ha reunido a profesionales de campos como la ingenierรญa, la filosofรญa, la
fisiologรญa y la psicologรญa, todos impulsados por el inmenso potencial que encierra esta
tecnologรญa. En colaboraciรณn, estรกn explorando diversas aplicaciones en sus respectivos
dominios. Un grupo concreto de investigadores ha dedicado sus esfuerzos a crear un
modelo informรกtico que emule las funciones fundamentales del cerebro humano. Este
logro revolucionario ha dado lugar a una tecnologรญa innovadora conocida como
Computaciรณn Neural o Redes Neuronales Artificiales.
La renovada fascinaciรณn por este novedoso mรฉtodo de realizar cรกlculos, que se
habรญa pasado por alto durante los รบltimos veinte aรฑos, puede atribuirse a los notables
avances y logros tanto en el รกmbito teรณrico como en el prรกctico que se han logrado en los
รบltimos tiempos.
Caracterรญsticas
Las redes neuronales artificiales, comรบnmente conocidas como ANN (por sus
siglas en ingles), se inspiran en la intrincada red de neuronas biolรณgicas que se encuentran
en el cerebro humano. Los componentes fundamentales imitan el comportamiento de las
neuronas biolรณgicas, emulando asรญ sus funciones primarias. Estos componentes estรกn
Pรกg. 99
meticulosamente organizados dentro de la estructura de ANN, reflejando la organizaciรณn
observada en el cerebro humano.
Las ANN no poseen รบnicamente un parecido visual con el cerebro, tambiรฉn
exhiben varias caracterรญsticas similares a el cerebro. Una caracterรญstica notable es su
capacidad para adquirir conocimientos a travรฉs de la experiencia, lo que les permite
asimilar informaciรณn de instancias pasadas y aplicarla a escenarios novedosos. Ademรกs,
las ANN poseen la capacidad de extraer caracterรญsticas fundamentales de un conjunto de
datos determinado, lo que les permite identificar y comprender los atributos esenciales
que definen los datos.
โ€ข Aprender significa adquirir conocimientos sobre algo participando en actividades
como estudiar, practicar o adquirir experiencia de primera mano. Las (ANN)
tienen la capacidad de modificar su comportamiento en funciรณn de las condiciones
de su entorno. Cuando se les presenta una colecciรณn de entradas, las ANN tienen
la capacidad de adaptarse y ajustarse para generar resultados confiables y
consistentes.
โ€ข La generalizaciรณn se refiere al proceso de extender o expandir algo. Las ANN
tambiรฉn tienen la capacidad de generalizarse automรกticamente, รฉsto es producto
de su estructura y caracterรญsticas inherentes. Estas redes tienen la capacidad de
proporcionar respuestas precisas a entradas que pueden presentar ligeras
variaciones causadas por factores como ruido o distorsiรณn, dentro de un cierto
rango.
โ€ข El proceso de abstracciรณn implica separar o analizar mentalmente las cualidades
de un objeto por sรญ solas. En el contexto de las redes neuronales artificiales, ciertas
ANN poseen la capacidad de abstraer la naturaleza fundamental o los elementos
centrales de un grupo de entradas, incluso cuando estas entradas parecen carecer
de caracterรญsticas obvias o compartidas.
Su estructura
La neurona, que es la piedra angular del sistema nervioso y especรญficamente del
cerebro, sirve como un componente crucial en el procesamiento de la informaciรณn. Cada
neurona opera como una unidad de procesamiento bรกsica, responsable de recibir e
Pรกg. 100
integrar seรฑales de otras neuronas. Cuando la entrada colectiva supera un cierto umbral,
la neurona se activa y produce una salida. Para comprender mejor la estructura y funciรณn
de una neurona, observe la siguiente figura que ilustra los diversos componentes que
constituyen una neurona (Basogain Olabe, s.f.).
El sistema nervioso central se compone por miles de millones, o incluso billones,
de neuronas que se encuentran intrincadamente interconectadas. Estas neuronas se
comunican entre sรญ a travรฉs de conexiones especializadas llamadas sinapsis, donde el
axรณn de una neurona se ramifica y se conecta con las dendritas de otras neuronas. A
travรฉs de esta intrincada red de sinapsis, la informaciรณn se transmite y procesa dentro del
cerebro. Curiosamente, la eficacia de estas sinapsis puede modificarse y ajustarse a
medida que el cerebro aprende y se adapta. Esta flexibilidad en la funciรณn sinรกptica juega
un papel crucial en la configuraciรณn de la capacidad del cerebro para aprender, recordar
y procesar informaciรณn.
En el รกmbito de las redes neuronales artificiales, el elemento de procesamiento (PE)
actรบa como el equivalente de una neurona biolรณgica. Un elemento de procesamiento
posee la capacidad de recibir mรบltiples entradas, que despuรฉs se combinan, generalmente
mediante un proceso de suma sencillo. La suma resultante de las entradas sufre
modificaciรณn mediante una funciรณn de transferencia, y el valor resultante de esta
modificaciรณn se transmite directamente a la salida del elemento de procesamiento.
La salida de una neurona artificial, tambiรฉn conocida como elemento de
procesamiento, se puede vincular a la entrada de otras neuronas artificiales, formando
una red de PE interconectados. Estas conexiones estรกn ponderadas, lo que significa que
Pรกg. 101
la fuerza de la conexiรณn estรก determinada por la eficiencia de la sinapsis entre las
neuronas. El siguiente diagrama muestra un componente de procesamiento de una red
neuronal artificial basada en computadora (Basogain Olabe, s.f.).
Una red neuronal se compone de un conjunto de unidades elementales, conocidas
como elementos de procesamiento, que estรกn interconectadas de una manera especรญfica.
La importancia de las redes neuronales artificiales no reside sรณlo en el modelo PE
individual, sino tambiรฉn en las intrincadas conexiones entre estos elementos de
procesamiento. Normalmente, los elementos de PE se agrupan en niveles o capas,
formando una estructura jerรกrquica. Una red neuronal estรกndar consta de una serie de
estas capas, con conexiones establecidas entre cada capa adyacente consecutiva.
La red neuronal artificial consta de varias capas, incluida una capa de bรบfer de
entrada responsable de recibir datos del entorno externo y una capa de bรบfer de salida
que almacena la respuesta de la red a la entrada. Estas dos capas sirven como interfaz
entre la red y el mundo exterior. Aparte de estas capas, existen capas ocultas adicionales
dentro de la red. La figura siguiente representa visualmente la estructura de una Red
Neuronal Artificial (Basogain Olabe, s.f.).
Pรกg. 102
La computaciรณn neuronal
Para resolver un problema utilizando tรฉcnicas de programaciรณn tradicionales, es
necesario desarrollar un algoritmo, definido como un conjunto de instrucciones que
describen los pasos que debe seguir un sistema informรกtico para alcanzar con รฉxito el
resultado deseado, que es la soluciรณn al problema en cuestiรณn.
Crear una secuencia de instrucciones para abordar un problema contable es una
tarea relativamente sencilla, pero existen numerosos escenarios del mundo real en los que
diseรฑar un algoritmo para resolver problemas complejos puede resultar sumamente
desafiante. Un ejemplo de ello es el desarrollo de un programa de reconocimiento de
imรกgenes, especialmente cuando se trata de identificar el rostro de una persona. En este
caso, el algoritmo debe tener en cuenta varios factores, como diferentes expresiones
faciales, incluidas caras serias o felices, asรญ como otras variaciones generales que pueden
existir dentro de la imagen de una persona.
Las ANN se distinguen de los algoritmos preprogramados en su necesidad de un
entrenamiento previo. En otras palabras, la red estรก expuesta a un conjunto de ejemplos
a travรฉs de su capa de entrada y luego se adapta de acuerdo con una regla de aprendizaje
especรญfica.
Asรญ, estas redes neuronales artificiales poseen una estructura distintiva que las
diferencia de las computadoras convencionales de un solo procesador. A diferencia de
las mรกquinas tradicionales que siguen el modelo de Von Neuman, las ANN constan de
mรบltiples elementos de procesamiento en lugar de una CPU (Unidad de proceso de
control) solitaria responsable de ejecutar todos los cรกlculos de acuerdo con la secuencia
algorรญtmica programada. A diferencia de las CPU, que estรกn equipadas para ejecutar mรกs
Pรกg. 103
de cien comandos elementales que abarcan operaciones como suma, resta y
desplazamiento, las ANN cuentan con un marco completamente diferente.
Los comandos o instrucciones se ejecutan en un orden especรญfico y coordinados
con el reloj del sistema. Sin embargo, en los sistemas de computaciรณn neuronal, cada
elemento de procesamiento (PE) se limita a realizar solo uno o unos pocos cรกlculos. La
eficacia de las redes neuronales artificiales estรก determinada principalmente por la
frecuencia con la que se actualizan las interconexiones durante el entrenamiento o el
aprendizaje. Por otro lado, el rendimiento de las mรกquinas Von Neumann se mide en
funciรณn del nรบmero de instrucciones ejecutadas por segundo por la unidad central de
procesamiento (CPU).
La estructura de las ANN se deriva de la disposiciรณn de sistemas de procesamiento
paralelos, donde varios procesadores estรกn conectados entre sรญ. No obstante, estos
procesadores son unidades bรกsicas para la computaciรณn, diseรฑadas para sumar
numerosas entradas y al mismo tiempo tener la capacidad de adaptar y modificar la
fuerza de las conexiones entre ellas.
Por lo tanto, los sistemas expertos y la programaciรณn tradicional tienen una
distinciรณn notable en la forma en que manejan el procesamiento del conocimiento. En los
sistemas expertos, la base de conocimientos estรก separada del motor de inferencia, que se
encarga de procesar ese conocimiento. Esta separaciรณn permite que el sistema incorpore
nuevos conocimientos sin necesidad de una reprogramaciรณn completa de todo el sistema.
Esencialmente, permite la expansiรณn y mejora continua de la base de conocimientos del
sistema. Sin embargo, para que esta tรฉcnica sea efectiva, es imperativo contar con un
experto en el campo relevante que pueda aportar su experiencia y establecer reglas que
puedan codificar efectivamente ese conocimiento dentro del sistema.
Al crear una red neuronal, no es necesario programar manualmente el
conocimiento ni los mรฉtodos para procesar ese conocimiento. En cambio, la red neuronal
adquiere la capacidad de procesar conocimiento modificando la fuerza de las conexiones
entre las neuronas en varias capas de la red. En los Sistemas Expertos el conocimiento se
representa explรญcitamente a travรฉs de reglas. Por otro lado, en la computaciรณn neuronal,
las Redes Neuronales Artificiales tienen la capacidad de generar sus propias reglas
aprendiendo de los ejemplos que se les presentan durante la fase de entrenamiento. Este
Pรกg. 104
proceso de aprendizaje se ve facilitado por una regla de aprendizaje, que ajusta los pesos
de las conexiones dentro de la red en funciรณn de los ejemplos de entrada proporcionados
y, potencialmente, tambiรฉn en funciรณn de los resultados deseados. Esta caracterรญstica
รบnica de las ANN les permite adquirir conocimientos a travรฉs de la experiencia.
Entonces, un aspecto clave de las redes neuronales artificiales es cรณmo almacenan
informaciรณn. A diferencia de los sistemas informรกticos tradicionales, las ANN distribuyen
su memoria o conocimiento entre todas las conexiones ponderadas dentro de la red.
Ademรกs, ciertas ANN poseen el atributo de ser "asociativas", lo que significa que cuando
se les presenta una entrada parcial, la red puede identificar la entrada mรกs similar
almacenada en su memoria y generar una salida que se alinea con la entrada completa.
Esta capacidad asociativa permite a las ANN procesar y responder eficientemente a datos
incompletos o fragmentados. Asรญ, las ANN tienen una condiciรณn รบnica denominada
memoria, que les facilita la eficaz adaptaciรณn y generaciรณn de respuestas adecuadas, aun
cuando se enfrentan a entradas imperfectas o distorsionadas. Este atributo invaluable se
describe comรบnmente como la capacidad de la red para "generalizar" su comprensiรณn y
proceso de toma de decisiones.
Otra caracterรญstica importante de las redes neuronales artificiales es su capacidad
para tolerar fallos. La tolerancia a fallas se refiere a la capacidad de las ANN de continuar
funcionando incluso si algunos de los elementos de procesamiento (PE) o conexiones
dentro de la red estรกn daรฑados o alterados. En tales casos, el comportamiento global de
la red puede sufrir ligeras modificaciones, pero el sistema en su conjunto no colapsa ni
deja de funcionar. Esta caracterรญstica รบnica de tolerancia a fallos en las ANN se puede
atribuir a la forma en que se distribuye y almacena la informaciรณn en toda la red, en lugar
de concentrarse en una รบnica ubicaciรณn. Esto garantiza que incluso si ciertas partes de la
red se ven afectadas, el funcionamiento general y el rendimiento de la ANN permanezcan
intactos.
Historia
En 1956, se produjo un hito importante en la Inteligencia Artificial cuando
pioneros como Minsky, McCarthy, Rochester y Shanon organizaron la primera
conferencia sobre Inteligencia Artificial. Esta conferencia, patrocinada por la Fundaciรณn
Rochester, tuvo lugar durante el verano de 1956 en la localidad inglesa de Dartmouth.
Pรกg. 105
Muchos libros se refieren a este verano como el encuentro inicial significativo con las
redes neuronales artificiales. Durante esta conferencia, Nathaural Rochester, del equipo
de investigaciรณn de IBM, presentรณ su propio modelo de red neuronal, que puede
considerarse el primer software de simulaciรณn de redes neuronales artificiales.
Un aรฑo mรกs tarde, en 1957, Frank Rosenblatt hizo una importante contribuciรณn al
campo de la computaciรณn neuronal con la publicaciรณn de su extenso trabajo de
investigaciรณn. Este trabajo se centrรณ en el desarrollo de un elemento conocido como
"Perceptron". El Perceptron es un sistema para clasificar patrones y tiene la capacidad de
identificar patrones tanto geomรฉtricos como abstractos. El primer Perceptron demostrรณ
la capacidad de aprender y mantener una funcionalidad sรณlida, y solo se veรญa afectado si
los componentes del sistema resultaban daรฑados. Ademรกs, mostrรณ flexibilidad y continuรณ
comportรกndose correctamente incluso despuรฉs de que algunas cรฉlulas fueron destruidas.
Diseรฑado originalmente para el reconocimiento de patrones รณpticos, el Perceptron
incorporรณ una rejilla de 400 fotocรฉlulas, que representan neuronas retinianas sensibles a
la luz, para recibir estรญmulos รณpticos. Estas fotocรฉlulas estaban conectadas a elementos
asociativos que recogรญan los impulsos elรฉctricos emitidos por las fotocรฉlulas.
Las conexiones entre los elementos asociativos y las fotocรฉlulas se establecieron de
forma aleatoria. Si las celdas recibieran un valor de entrada que superara un umbral
predeterminado, el elemento asociativo producirรญa una salida. La figura muestra la
estructura de la red Perceptron (Basogain Olabe, s.f.).
En 1982, la publicaciรณn de John Hopfield del modelo Hopfield o red asociativa
Crossbar, junto con la invenciรณn del algoritmo de retropropagaciรณn, reavivรณ el interรฉs y
la confianza en el campo de la computaciรณn neuronal despuรฉs de dos dรฉcadas de
inactividad y desinterรฉs. Hopfield presenta un sistema informรกtico neuronal que
comprende elementos de procesamiento interconectados. Estos elementos trabajan juntos
Pรกg. 106
para minimizar la energรญa dentro de la red. Este sistema especรญfico, con su funciรณn
energรฉtica y mecanismo de respuesta, cae dentro de la categorรญa mรกs amplia de redes que
Grossberg explorรณ previamente.
La actualidad
Numerosos grupos de investigaciรณn, repartidos por varias universidades de todo
el mundo, participan activamente en la realizaciรณn de amplios estudios relacionados con
las redes neuronales artificiales. Estos grupos, que comprenden una amplia gama de
profesionales, incluidos neurรณlogos, psicรณlogos cognitivos, fรญsicos, programadores y
matemรกticos, aportan distintos enfoques y motivaciones dentro de este รกmbito. En
consecuencia, aportan perspectivas novedosas y conocimientos intuitivos al campo de la
tecnologรญa en constante evoluciรณn.
Grossberg colabora actualmente con Carpenter en la Universidad de Boston,
mientras que Teuvo Kohonen trabaja en la Universidad de Helsinki. En los รบltimos aรฑos,
uno de los grupos de investigaciรณn mรกs destacados ha sido el grupo PDP (Parallel
Distributed Processing), establecido por Rumelhart, McClelland y Hinton. Rumelhart, un
distinguido acadรฉmico de la Universidad de Stanford, ha desempeรฑado un papel
fundamental en la popularizaciรณn de la red neuronal de retropropagaciรณn, que se utiliza
ampliamente en diversas aplicaciones en la actualidad.
El grupo de investigaciรณn de McClelland en la Universidad Carnegie-Mellon es
particularmente digno de menciรณn por su exploraciรณn de posibles aplicaciones de la
retropropagaciรณn. Por otro lado, Hinton y Sejnowski de la Universidad de Toronto han
desarrollado una mรกquina denominada Boltzman, que presenta la red de Hopfield con
dos modificaciones importantes. Ademรกs, Bart Kosko ha ideado una red llamada BAM
(Memoria Asociada Bidireccional) que se basa en la red de Grossberg.
Asimismo, es importante reconocer la presencia de importantes grupos de
investigaciรณn en instituciones estimadas como el Instituto de Tecnologรญa de California, el
Instituto de Tecnologรญa de Massachusetts, la Universidad de California Berkeley y la
Universidad de California en San Diego. No pasemos por alto las importantes inversiones
econรณmicas y tรฉcnicas que estรกn realizando empresas privadas en los Estados Unidos, el
Japรณn y la Comunidad Econรณmica Europea. Para ilustrar la magnitud de estas
Pรกg. 107
inversiones, basta seรฑalar que sรณlo Estados Unidos gasta mรกs de 100 millones de dรณlares
al aรฑo.
ANN: aplicaciones
La industria del automรณvil se ha beneficiado enormemente de la aplicaciรณn de
redes neuronales artificiales. Con el auge de los vehรญculos autรณnomos, las ANN
desempeรฑan un papel crucial al permitir el reconocimiento de objetos, peatones y otros
vehรญculos, facilitando una navegaciรณn segura y eficiente. Ademรกs, los sistemas de
computaciรณn neuronal se utilizan para optimizar el rendimiento del motor, mejorar la
eficiencia del combustible y predecir fallas de componentes, lo que mejora la
confiabilidad general del vehรญculo.
Asimismo, las redes neuronales artificiales encuentran un amplio uso en el รกmbito
de las finanzas y la economรญa. Los modelos ANN se emplean para pronosticar precios de
acciones, predecir tendencias del mercado y optimizar carteras de inversiรณn. Al utilizar
datos histรณricos y algoritmos complejos, estos sistemas pueden identificar patrones y
fluctuaciones ocultos en los mercados financieros, ayudando a los inversores a tomar
decisiones informadas.
Las aplicaciones de las redes neuronales artificiales son amplias y abarcan diversos
dominios. Una de esas รกreas en las que ANN sobresale es en las tareas de reconocimiento
de patrones. Ya sea que se trate de identificar patrones complejos en imรกgenes, voz o
texto, los sistemas de computaciรณn neuronal han demostrado ser invaluables para extraer
informaciรณn significativa de estas entradas. Las, ANN ha demostrado su eficacia en รกreas
como la minerรญa de datos, donde puede descubrir patrones y correlaciones ocultos dentro
de conjuntos de datos vastos y complejos. Otra aplicaciรณn importante de las redes
neuronales artificiales se encuentra en el campo de la bioinformรกtica y la genรณmica.
Con la capacidad de analizar datos biolรณgicos a gran escala, incluidas secuencias
de ADN y estructuras de proteรญnas, ANN ayuda a comprender cรณdigos genรฉticos,
predecir funciones de proteรญnas e identificar posibles objetivos farmacolรณgicos. Esto tiene
inmensas implicaciones para los avances en el campo mรฉdico, incluida la medicina
personalizada y el descubrimiento de fรกrmacos.
Pรกg. 108
En esencia, la versatilidad y el enfoque humano de los sistemas de computaciรณn
neuronal han abierto una amplia gama de aplicaciones en numerosas industrias. Desde
el reconocimiento de patrones hasta la bioinformรกtica, las finanzas y la automociรณn, las
redes neuronales artificiales continรบan revolucionando la forma en que procesamos y
analizamos los datos y, en รบltima instancia, mejoran nuestra comprensiรณn y capacidad
de toma de decisiones. Las caracterรญsticas รบnicas y excepcionales de los sistemas de
computaciรณn neuronal los hacen muy versรกtiles y aplicables en una amplia gama de
campos. Al imitar la capacidad del cerebro humano para reconocer y percibir
informaciรณn, la computaciรณn neuronal ofrece un enfoque mรกs holรญstico de los cรกlculos en
comparaciรณn con los mรฉtodos convencionales. Esto significa que las redes neuronales
artificiales pueden producir resultados mรกs precisos y confiables, particularmente en
escenarios donde los datos de entrada son propensos a tener ruido o carecen de
integridad.
โ€ข Terrence Sejnowski es un destacado defensor de la computaciรณn neuronal en el
campo de la conversiรณn de texto a voz. Este proceso implica transformar el texto
escrito en lenguaje hablado alterando los sรญmbolos visuales del texto. Sejnowski y
Rosemberg introdujeron un sistema de computaciรณn neuronal llamado NetTalk,
que convierte texto en fonemas y utiliza un sintetizador de voz llamado Dectalk
para generar voz. Una ventaja importante de la computaciรณn neuronal en la
conversiรณn de texto a voz es su capacidad de eliminar la necesidad de programar
en la computadora reglas de pronunciaciรณn complejas. Si bien el sistema NetTalk
demuestra un rendimiento impresionante, la aplicaciรณn de la computaciรณn
neuronal en esta รกrea abre numerosas oportunidades para la investigaciรณn y el
desarrollo comercial.
โ€ข El procesamiento del lenguaje natural implica el examen y anรกlisis de cรณmo se
formulan y estructuran las reglas del lenguaje. En el รกmbito de la ciencia del
conocimiento, los investigadores Rumelhart y McClelland han incorporado con
รฉxito una red neuronal al campo del procesamiento del lenguaje natural. Este
sistema avanzado ha logrado dominio en el aprendizaje de las conjugaciones
verbales en tiempo pasado de los verbos en inglรฉs. Las caracterรญsticas รบnicas de la
computaciรณn neuronal, como la capacidad de extrapolar a partir de datos
incompletos y la capacidad de conceptualizar conceptos abstractos, permiten que
Pรกg. 109
el sistema produzca predicciones precisas para verbos desconocidos o
inexplorados.
โ€ข La compresiรณn de imรกgenes es el proceso de convertir datos de imรกgenes en una
forma diferente que ocupe menos espacio de almacenamiento o que pueda
reconstruirse como una imagen visualmente indistinguible. Investigadores de la
Universidad de San Diego y Pittsburgh, concretamente Cottrel, Munro y Zisper,
han desarrollado un sistema de compresiรณn de imรกgenes que utiliza una red
neuronal.
โ€ข El reconocimiento de caracteres implica el anรกlisis visual y la categorizaciรณn de
sรญmbolos. Nestor, Inc. ha logrado avances significativos en este campo al crear un
sistema de computaciรณn neuronal que, luego de un perรญodo de entrenamiento con
una variedad de variaciones de caracteres de letras, posee la capacidad de descifrar
e interpretar caracteres o letras desconocidos.
โ€ข El reconocimiento de patrones de imรกgenes se utiliza comรบnmente en diversas
aplicaciones, como clasificar objetivos identificados por sonar y realizar
inspecciones industriales. En el campo del sonar, se han desarrollado redes
neuronales artificiales (ANN) que utilizan el algoritmo de retropropagaciรณn para
imitar el comportamiento de los operadores humanos. Estas ANN han
demostrado capacidades similares a las de los humanos para clasificar objetivos
con precisiรณn. Ademรกs, el reconocimiento de patrones de imรกgenes se emplea
ampliamente en entornos industriales con fines de inspecciรณn.
โ€ข Los problemas de combinatoria son un tipo especรญfico de problema en el que el
mรฉtodo de cรกlculo tradicional requiere una cantidad significativa de tiempo de
procesamiento que aumenta exponencialmente con el nรบmero de entradas. Un
ejemplo de tal problema es el problema del vendedor, que implica encontrar la
ruta mรกs corta para que un vendedor viaje a travรฉs de un nรบmero limitado de
ciudades en un รกrea geogrรกfica especรญfica. Hopfield ha logrado una soluciรณn a este
problema, quien ha desarrollado una Red Neuronal Artificial que proporciona
resultados efectivos para resolver este tipo de problemas combinatorios complejos.
โ€ข El procesamiento de seรฑales implica la utilizaciรณn de redes neuronales artificiales
en diversas aplicaciones. Dentro de este dominio, las ANN se han utilizado
Pรกg. 110
ampliamente para tres tipos distintos de tareas de procesamiento de seรฑales:
predicciรณn, modelado de sistemas y filtrado de ruido.
โ€ข En el รกmbito del mundo fรญsico existen numerosos fenรณmenos que pueden
entenderse y predecirse en funciรณn de los patrones y tendencias observados en una
serie de datos o valores registrados. Una extensa investigaciรณn realizada por
Lapedes y Farber en el prestigioso Laboratorio de Investigaciรณn de Los รlamos ha
revelado que la implementaciรณn de la retropropagaciรณn de la red supera las
tรฉcnicas tradicionales de predicciรณn lineal y polinomial cuando se trata de
pronosticar con precisiรณn series temporales caรณticas, lo que demuestra una
sorprendente mejora diez veces mayor en la precisiรณn predictiva.
โ€ข El modelado de sistemas implica la caracterizaciรณn de sistemas lineales utilizando
una funciรณn de transferencia. Esta funciรณn de transferencia representa la relaciรณn
entre la variable de salida y una variable independiente, asรญ como sus derivadas.
De manera similar, las redes neuronales artificiales tienen la capacidad de
aprender e imitar el comportamiento de una funciรณn de transferencia, emulando
efectivamente el sistema lineal que se estรก modelando.
โ€ข Las redes neuronales artificiales tambiรฉn se pueden emplear de forma eficaz para
eliminar el ruido de una seรฑal, lo que demuestra su capacidad para preservar las
estructuras y valores fundamentales de los filtros convencionales. En el รกmbito de
los modelos econรณmicos y financieros, la previsiรณn juega un papel fundamental en
la predicciรณn de diversos aspectos, como los precios de las acciones, el rendimiento
de los cultivos, las tasas de interรฉs, los volรบmenes de ventas y mรกs. En este รกmbito,
las redes neuronales han demostrado superar a los mรฉtodos tradicionales y ofrecer
resultados superiores en la previsiรณn financiera.
โ€ข El control de un sistema de servomecanismo complejo plantea una tarea desafiante
debido a la necesidad de un mรฉtodo de cรกlculo computacional adecuado para
tener en cuenta las variaciones fรญsicas que surgen dentro del sistema. Uno de los
principales obstรกculos es la dificultad para medir con precisiรณn estas variaciones y
la importante cantidad de tiempo necesaria para calcular la soluciรณn matemรกtica.
Para abordar este problema se han desarrollado y entrenado diversas redes
neuronales para replicar o pronosticar el error que se produce en la posiciรณn final
Pรกg. 111
del robot. Al integrar este error con la posiciรณn deseada, se logra una correcciรณn de
posiciรณn adaptativa, mejorando en รบltima instancia la precisiรณn de la posiciรณn
final.
Clasificaciรณn
Hay varias formas de categorizar las redes neuronales segรบn su propรณsito y uso.
Una forma es clasificarlos como clasificadores o regresores.
โ€ข Los clasificadores son redes neuronales diseรฑadas para clasificar datos en
diferentes categorรญas o clases. Asignan una clase discreta a un vector de entradas,
lo que significa que determinan a quรฉ categorรญa pertenece una entrada
determinada.
โ€ข Por otro lado, los regresores son redes neuronales que se utilizan para tareas de
regresiรณn. En lugar de asignar clases discretas, asignan un vector de salida
continuo o analรณgico a un vector de entrada continuo. Esto significa que pueden
predecir o estimar valores numรฉricos basรกndose en las entradas dadas.
Basadas en su arquitectura:
โ€ข Monocapa: Perceptron simple
โ€ข Multicapa
La red neuronal monocapa se caracteriza por su simplicidad ya que consta de una
sola capa de neuronas. En este tipo de red, las entradas se utilizan directamente para
obtener las salidas. Por otro lado, las redes multicapa son mรกs complejas ya que
incorporan mรบltiples capas ocultas entre la capa de entrada y la capa de salida. Estas
capas ocultas desempeรฑan un papel crucial en el procesamiento de la informaciรณn
sensorial y la generaciรณn del resultado final de la red.
Basadas en el mรฉtodo de aprendizaje:
โ€ข Con mรฉtodo de aprendizaje supervisado
โ€ข Con mรฉtodo de aprendizaje no supervisado
โ€ข Con mรฉtodo de aprendizaje reforzado
Pรกg. 112
En el aprendizaje supervisado, la red neuronal recibe patrones de entrada y los
correspondientes patrones de salida deseados durante el proceso de entrenamiento.
Utiliza esta informaciรณn para ajustar los parรกmetros internos de cada neurona. Por el
contrario, en los enfoques de aprendizaje no supervisados, se desconocen los resultados
deseados. En cambio, la red neuronal adapta sus parรกmetros internos identificando
patrones comunes o similitudes dentro de los datos de entrada. Esto podrรญa implicar
agrupar puntos de datos y determinar las distancias entre ellos para formar clases o
grupos. El aprendizaje por refuerzo, por otro lado, se centra รบnicamente en evaluar la
exactitud del resultado, sin un conocimiento explรญcito de los patrones deseados.
Se utilizan diferentes tรฉcnicas para el aprendizaje no supervisado:
โ€ข Por agrupamiento
โ€ข Segรบn el Anรกlisis de Componentes Principales (PCA)
โ€ข El Aprendizaje competitivo.
โ€ข Los Mapas autoorganizados (SOM)
En el proceso de aprendizaje competitivo, las neuronas participan en una batalla,
esforzรกndose por superarse unas a otras. Las neuronas victoriosas se determinan en
funciรณn de quรฉ tan cerca se alinean sus pesos con el patrรณn de entrada dado. Como
resultado, el aprendizaje se produce a medida que las conexiones de la neurona triunfante
se refuerzan, mientras que las conexiones de las otras neuronas experimentan un efecto
de debilitamiento.
En los mapas autoorganizados (SOM), el proceso de agrupar datos en funciรณn de
la similitud se emplea para proyectarlos de manera efectiva en un mapa, facilitando la
creaciรณn de distintos grupos o clases. Por otro lado, el Anรกlisis de Componentes
Principales (PCA) sirve para reducir la dimensionalidad de los datos describiรฉndolos en
un nuevo conjunto de variables que no estรกn correlacionadas entre sรญ. Esta reducciรณn de
dimensionalidad permite que la red neuronal maneje los datos de manera mรกs eficiente
al simplificar su complejidad. Ademรกs, PCA se puede utilizar en redes neuronales para
agrupar los datos de manera competitiva, proporcionando mรกs informaciรณn y
comprensiรณn.
Basada en su dependencia temporal:
Pรกg. 113
โ€ข Las redes neuronales estรกticas: dependencia estรกtica
โ€ข Las redes neuronales dinรกmicas: dependencia temporal
Las redes neuronales estรกticas no poseen la capacidad de retener informaciรณn ni
recordar experiencias pasadas. Inicialmente se les enseรฑa a travรฉs de un proceso de
capacitaciรณn y posteriormente se les aplica una serie de insumos para generar los
resultados correspondientes. Una vez completada la capacitaciรณn, los resultados
dependen รบnicamente de los insumos proporcionados. Estas redes se emplean
ampliamente y tienen una gran prevalencia en diversos รกmbitos.
Por el contrario, las redes neuronales dinรกmicas ofrecen la capacidad de establecer
conexiones entre las entradas y/o salidas actuales y anteriores, dando como resultado la
incorporaciรณn de memoria. Esto significa que estas redes estรกn diseรฑadas con la
utilizaciรณn de ecuaciones diferenciales o ecuaciones en diferencias para minimizar
cualquier discrepancia o inexactitud en los resultados generados.
Las redes dinรกmicas se pueden clasificar en dos tipos segรบn su proceso de
evoluciรณn: redes recurrentes, que experimentan una evoluciรณn recurrente, y redes
diferenciales, que experimentan una evoluciรณn continua.
Basada en su conexiรณn:
โ€ข Las redes neuronales prealimentadas
โ€ข Las redes neuronales recurrentes
Una red neuronal feedforward (prealimentada) es un tipo de red que no tiene
bucles ni ciclos en sus conexiones entre neuronas. Esto lo distingue de las redes
neuronales recurrentes. En una red feedforward, la informaciรณn fluye de manera
unidireccional, comenzando desde la capa de entrada, pasando por la capa oculta y
finalmente llegando a la capa de salida. Esta falta de bucles garantiza que no haya
retroalimentaciรณn ni flujo de informaciรณn hacia atrรกs en estas redes.
Las redes simples:
โ€ข El Perceptron imple
โ€ข El percepciรณn multicapa
Pรกg. 114
โ€ข Adaline y Madaline
โ€ข Las redes neuronales de base radial (RBF)
โ€ข Las redes neuronales dinรกmicas recurrentes (RNN)
โ€ข Las redes neuronales profundas o convolucionales (CNN)
โ€ข Las redes neuronales derivativas
En su investigaciรณn, Widrow y su alumno Hoff realizaron un examen detallado de
la red Adaline de una capa y su regla de aprendizaje asociada. Introdujeron el concepto
de utilizar el algoritmo LMS, tambiรฉn conocido como mรญnimo cuadrado medio, para
entrenar esta red. La red Adaline, que es un tipo de red lineal, comparte similitudes con
la red perceptron. Sin embargo, la distinciรณn clave radica en la funciรณn de transferencia
utilizada por Adaline, que es de naturaleza lineal en lugar de limitante.
Esta caracterรญstica รบnica permite a Adaline producir valores analรณgicos como
salidas, en contraste con la red de perceptrones, que estรก limitada a generar salidas de 0
o 1. En consecuencia, las redes de perceptrones solo son capaces de resolver problemas
linealmente separables. Vale la pena seรฑalar que la red Madaline, por otro lado, es una
red Adaline multicapa.
La red neuronal multicapa
Las redes neuronales suelen constar de varias capas, y cada capa comprende una
matriz de peso W, un vector de polarizaciรณn b y un vector de salida a. La notaciรณn de
superรญndice se emplea para diferenciar las variables que pertenecen a distintas capas en
las matrices de ponderaciรณn, sesgos y vectores de salida. La siguiente figura demuestra
visualmente la utilizaciรณn de esta notaciรณn en una red neuronal de tres capas, mientras
que las ecuaciones correspondientes a cada capa se representan en la parte inferior de la
figura (Vorobioff, 2022).
Pรกg. 115
De igual manera la red neuronal de tres capas se puede representar de forma
abreviada (Vorobioff, 2022).
Al utilizar una red neuronal sencilla de dos capas que incorpora funciones de
activaciรณn sigmoidea en la primera capa y funciones lineales en la segunda capa, es
posible aproximar cualquier funciรณn, aunque con un nรบmero limitado de
discontinuidades. Esta configuraciรณn particular de una red neuronal de dos capas se
emplea ampliamente en diversas aplicaciones de redes neuronales, junto con la
utilizaciรณn del algoritmo de retropropagaciรณn. En la segunda ilustraciรณn se muestra la
salida de la red que corresponde a la salida de la capa final, especรญficamente denominada
capa 3, denotada como ๐‘ฆ๐‘ฆ = ๐‘Ž๐‘Ž3. Vale la pena seรฑalar que ๐‘ฆ๐‘ฆ significa la salida de la red.
Procesamiento: las entradas y las salidas
Las entradas de la red pueden ir acompaรฑadas de funciones de procesamiento que
modifican los datos de entrada para hacerlos mรกs convenientes o eficientes para la red.
Un ejemplo de dicha funciรณn es la funciรณn mapminmax en Matlabยฎ, que transforma los
datos de entrada para que todos los valores estรฉn dentro del rango de -1 a 1. Esto puede
Pรกg. 116
mejorar el proceso de aprendizaje para muchas redes. Otra funciรณn comรบnmente
utilizada en Matlabยฎ es removeconstantrows, que elimina las filas del vector de entrada
que corresponden a elementos de entrada que siempre tienen el mismo valor. Esto se
debe a que estos elementos no aportan ninguna informaciรณn รบtil a la red.
La funciรณn fixunknowns es otra funciรณn de procesamiento que desempeรฑa un
papel en la recodificaciรณn de datos desconocidos (representados por valores NaN en
Matlab) en un formato numรฉrico adecuado para la red. Esta funciรณn tambiรฉn mantiene la
informaciรณn sobre quรฉ valores se conocen y cuรกles se desconocen. De manera similar, las
salidas de la red tambiรฉn pueden estar sujetas a funciones de procesamiento. Estas
funciones transforman los vectores de salida para alinearlos con las salidas esperadas, a
menudo reescalรกndolos. Al hacerlo, los datos de salida conservan las mismas
caracterรญsticas que los objetivos originales proporcionados por el usuario.
Las redes neuronales y los sistemas adaptativos
En el รกmbito de los sistemas adaptativos, nuestro enfoque implica la utilizaciรณn de
redes neuronales que poseen la capacidad de aprender y adaptarse en funciรณn de su
entorno. Este proceso de aprendizaje se lleva a cabo de forma supervisada, es decir,
proporcionamos a la red el resultado deseado, permitiรฉndole ajustar sus parรกmetros a
travรฉs de un proceso de aprendizaje iterativo. Este ajuste se logra modificando
sistemรกticamente una colecciรณn de parรกmetros libres conocidos como pesos sinรกpticos.
Estos pesos sinรกpticos juegan un papel crucial en el almacenamiento y retenciรณn de
informaciรณn obtenida de los datos de entrada.
Cuando se trata de aplicaciones de procesamiento de seรฑales adaptativas, las redes
neuronales ofrecen varias ventajas en comparaciรณn con los sistemas adaptativos lineales:
โ€ข La no linealidad se refiere a la caracterรญstica de numerosos sistemas fรญsicos donde
su comportamiento no sigue un patrรณn lineal. Este concepto es esencial ya que
permite la inclusiรณn y consideraciรณn de una amplia gama de sistemas que exhiben
un comportamiento no lineal. Al reconocer la prevalencia de la no linealidad en
varios sistemas fรญsicos, podemos comprender y analizar mejor sus complejas
dinรกmicas e interacciones.
Pรกg. 117
โ€ข La capacidad de aprendizaje de un sistema se puede determinar en funciรณn de la
informaciรณn que recibe como entradas y los resultados que produce como salidas.
โ€ข La generalizaciรณn se refiere a la capacidad de manejar eficazmente sistemas
desconocidos mediante el procesamiento de entradas que no se han encontrado
previamente dentro de la red. Esto implica que la red posee la capacidad de
adaptarse y funcionar con precisiรณn incluso en situaciones en las que carece de
conocimientos o experiencia previa.
โ€ข El concepto de tolerancia a errores en las redes neuronales reconoce que incluso si
ciertas neuronas dentro de la red no funcionan de manera รณptima, el sistema en
general aรบn puede producir resultados satisfactorios.
โ€ข Integraciรณn a gran escala y capacidades de procesamiento paralelo
El perceptron
En 1943, W. McCulloch y W. Pitts introdujeron el concepto de neuronas artificiales,
lo que marcรณ un hito importante en el desarrollo de la inteligencia artificial. Estos
primeros modelos operaban calculando una suma ponderada de seรฑales de entrada y
comparรกndola con un umbral predeterminado. Si la suma excediera o igualara el umbral,
la salida de la neurona serรญa 1; de lo contrario, serรญa 0.
El aspecto destacable de estas redes fue su capacidad para realizar diversas
funciones aritmรฉticas y lรณgicas, lo que las hacรญa muy versรกtiles y capaces de resolver
problemas complejos. A diferencia de sus homรณlogas biolรณgicas, los parรกmetros de estas
neuronas artificiales debรญan diseรฑarse manualmente, ya que en aquel momento no
existรญan mรฉtodos de entrenamiento establecidos. Sin embargo, esto no detuvo a los
cientรญficos e investigadores que quedaron fascinados por el potencial de estos
ordenadores digitales, inspirados en el intrincado funcionamiento de las neuronas
biolรณgicas.
En 1957, un grupo de investigadores dirigido por F. Rosenblatt logrรณ un avance
significativo en el campo de las redes neuronales al desarrollar los primeros perceptrones.
Estos perceptrones, similares a las redes de McCulloch y Pitts, estaban equipados con una
regla de aprendizaje que les permitรญa entrenarse en la resoluciรณn de problemas de
reconocimiento de patrones. Esta introducciรณn de una regla de aprendizaje fue un paso
Pรกg. 118
crucial en el avance de las redes neuronales, ya que asegurรณ que los perceptrones siempre
convergerรญan a los pesos correctos de la red, siempre que hubiera pesos disponibles para
resolver el problema en cuestiรณn. Los investigadores lograron esto presentando a la red
ejemplos de comportamiento deseado y permitiรฉndole aprender de sus errores. Incluso
cuando se inicializรณ con valores aleatorios para ponderaciones y sesgos, el perceptron
pudo aprender y mejorar mediante el uso de la regla de aprendizaje. Sin embargo, cabe
seรฑalar que estas primeras redes de perceptrones tenรญan sus limitaciones. No pudieron
implementar ciertas funciones elementales, lo que obstaculizรณ sus capacidades generales.
No fue hasta la dรฉcada de 1980 que estas limitaciones se superaron con el
desarrollo de redes de perceptrones multicapa y sus reglas de aprendizaje asociadas.
Estas redes mejoradas pudieron abordar tareas mรกs complejas y proporcionaron un
avance significativo en el campo de las redes neuronales. A pesar de estos avances, la red
de perceptrones sigue teniendo importancia en la actualidad. Sirve como una red rรกpida
y confiable para resolver aplicaciones simples. Ademรกs, el estudio de la red de
perceptrones proporciona una base sรณlida para comprender redes mรกs complejas y
profundizar en el campo de las redes neuronales. En las siguientes secciones,
profundizaremos en el funcionamiento de la red de perceptrones y exploraremos su regla
de aprendizaje con mayor detalle.
En el รกmbito de la biologรญa, se sabe que una neurona libera una seรฑal como salida
sรณlo cuando la suma acumulada de las seรฑales entrantes supera un umbral especรญfico.
Este fascinante comportamiento se replica en el modelo de perceptron al calcular la suma
ponderada de todas las seรฑales de entrada, reflejando el funcionamiento de las redes
neuronales biolรณgicas. Ademรกs, la salida generada por el perceptron se transmite
posteriormente a otras redes de perceptrones interconectadas, como destacรณ Kundella en
su investigaciรณn realizada en 2020.
La red neuronal Perceptron se basa en una funciรณn de transferencia conocida como
funciรณn โ€œhard limโ€. Esta funciรณn se utiliza para determinar la salida de la red
comparando la suma ponderada de las entradas con un valor umbral (Vorobioff, 2022).
Pรกg. 119
Los filtros adaptativos de redes neuronales
Las redes adalinas, tambiรฉn conocidas como neuronas lineales adaptativas,
comparten similitudes con los perceptrones pero difieren en el uso de una funciรณn de
transferencia lineal en lugar de una funciรณn limitante. Esta distinciรณn permite a las redes
Adaline generar resultados con una gama mรกs amplia de valores, mientras que los
perceptrones estรกn restringidos a producir 0 o 1 como resultado. Tanto las redes Adaline
como las de perceptrones son capaces de resolver problemas que son linealmente
separables. Si bien, la regla de aprendizaje empleada en las redes Adaline, conocida como
LMS o mรญnimos cuadrados medios, es significativamente mรกs poderosa que la regla de
aprendizaje utilizada en los perceptrones. El LMS, tambiรฉn conocido como regla de
aprendizaje de Widrow-Hoff, tiene como objetivo minimizar el error cuadrรกtico medio y,
en consecuencia, desplaza los lรญmites de decisiรณn lo mรกs lejos posible de los patrones de
entrenamiento.
Un sistema lineal adaptativo equipado con una red neuronal tiene la capacidad de
adaptarse y responder a las variaciones de su entorno en tiempo real. Estas redes lineales
son capaces de ajustar sus pesos y sesgos en cada paso del tiempo teniendo en cuenta
nuevos vectores de entrada y salida. El objetivo es encontrar los pesos y sesgos รณptimos
que minimicen la suma del error cuadrรกtico medio de la red para los vectores de entrada
y objetivo mรกs recientes. Estas redes han encontrado amplias aplicaciones en sistemas de
control, procesamiento de seรฑales y sistemas de cancelaciรณn de errores. Los pioneros en
este รกmbito, Widrow y Hoff, acuรฑaron el tรฉrmino Adaline para describir estos elementos
lineales adaptativos.
Las funciones adaptativas
La funciรณn de adaptaciรณn es responsable de modificar gradualmente los pesos y
sesgos de una red mientras se entrena. Cabe seรฑalar que la regla de Widrow-Hoff, que es
Pรกg. 120
un mรฉtodo utilizado para entrenar redes lineales de una sola capa, posee una limitaciรณn
en su aplicabilidad. Sin embargo, esta limitaciรณn no es un inconveniente importante
porque las redes lineales de una sola capa son tan poderosas como sus contrapartes
multicapa. En otras palabras, para cada red lineal multicapa, existe una red lineal
equivalente de una sola capa que puede alcanzar el mismo nivel de rendimiento.
El reconocimiento estadรญstico de patrones: redes neuronales
El reconocimiento de patrones implica la investigaciรณn, examen y manipulaciรณn
de datos provenientes de procedimientos cientรญficos y tecnolรณgicos que pertenecen a
entidades tangibles e intangibles. El objetivo final es discernir y extraer conocimientos
valiosos de varios grupos o categorรญas de estas entidades.
El reconocimiento de patrones
El aprendizaje automรกtico a menudo se describe como un proceso que imita el
funcionamiento del cerebro humano. Sin embargo, es importante seรฑalar que, si bien los
algoritmos imitan la inteligencia humana hasta cierto punto, operan de una manera
distinta. El aprendizaje automรกtico ha demostrado ser eficaz para resolver problemas
complejos y generar mejores resultados en diversos campos. Su implementaciรณn puede
resultar desafiante en determinadas aplicaciones, especialmente cuando faltan datos de
entrenamiento suficientes o cuando las variables son difรญciles de medir.
Los humanos poseen la capacidad de detectar e interpretar fรกcilmente diversas
variables o percepciones, como hacer diagnรณsticos mรฉdicos, interpretar radiografรญas o
analizar el comportamiento social. No obstante, con programas adecuadamente
capacitados, el aprendizaje automรกtico puede lograr resultados superiores en
comparaciรณn con los humanos. Aun cuando, es fundamental tener precauciรณn al utilizar
estos resultados, ya que los sistemas de aprendizaje automรกtico no son infalibles.
Descripciรณn del reconocimiento
Un patrรณn se refiere a una ocurrencia o disposiciรณn consistente dentro de una
colecciรณn de informaciรณn o en aspectos conceptuales especรญficos. El proceso de
reconocimiento de patrones implica identificar y descubrir consistencias y semejanzas
entre los datos mediante el empleo de diversas tรฉcnicas, como la mediciรณn o el
Pรกg. 121
aprendizaje a partir de datos. Estas semejanzas se pueden detectar mediante anรกlisis
estadรญstico, examinando datos pasados o empleando algoritmos.
En el campo del reconocimiento de patrones, el paso inicial consiste en recopilar
datos. Luego, estos datos se someten a filtrado y preprocesamiento para permitir que el
sistema identifique y extraiga caracterรญsticas relevantes. La selecciรณn del algoritmo
apropiado para el reconocimiento de patrones, ya sea Clasificaciรณn, Agrupaciรณn o
Regresiรณn, depende del tipo particular de sistema de datos.
Patrones:
โ€ข La clasificaciรณn supervisada se refiere a un conjunto de algoritmos que tienen la
capacidad de categorizar nuevos objetos utilizando informaciรณn obtenida de
muestras previamente categorizadas. Para lograr esto, estos algoritmos reciben
datos de entrenamiento que consisten en entradas junto con las respuestas
correspondientes o grupos de membresรญa. Este tipo de clasificaciรณn implica que el
algoritmo asigne etiquetas especรญficas a los datos en funciรณn de atributos
predeterminados. Cabe mencionar que la clasificaciรณn supervisada es un
componente fundamental del aprendizaje supervisado.
โ€ข La clasificaciรณn no supervisada implica el proceso de identificar la clasificaciรณn de
una muestra no clasificada sin ningรบn conocimiento previo de las respuestas
correctas. Durante el proceso de formaciรณn las respuestas no se dan ni se conocen.
โ€ข La agrupaciรณn, tambiรฉn conocida como clustering, es un proceso algorรญtmico que
implica dividir datos en mรบltiples grupos segรบn la similitud de sus caracterรญsticas.
Este tipo de aprendizaje se considera no supervisado porque no se basa en
etiquetas o clasificaciones predeterminadas. En ciertos casos, los datos que
necesitamos analizar pueden ser extremadamente complejos, lo que dificulta
categorizarlos en distintos grupos. Sin embargo, las redes neuronales tienen la
capacidad de reconocer patrones y caracterรญsticas รบnicos dentro de estos datos
complejos, lo que les permite clasificarlos en diferentes grupos sin ningรบn
conocimiento o informaciรณn previa sobre los datos. Esta tรฉcnica es particularmente
valiosa en los campos de la minerรญa de datos, tanto con fines comerciales como
cientรญficos, ya que permite la extracciรณn eficiente de conocimientos y patrones
significativos a partir de conjuntos de datos complejos.
Pรกg. 122
โ€ข Los algoritmos de regresiรณn estรกn diseรฑados para establecer conexiones entre
variables de entrada y salida, permitiendo la predicciรณn de variables dependientes
desconocidas utilizando las relaciones identificadas. Estos algoritmos operan bajo
el marco del aprendizaje supervisado.
โ€ข Una aplicaciรณn de las redes que funcionan correctamente es la capacidad de
predecir valores futuros basรกndose en una secuencia conocida de valores. Este
concepto se puede ver en diversos campos, como el mercado de valores, donde
predecir el comportamiento futuro de las acciones resulta de gran interรฉs.
โ€ข A las redes neuronales se les puede enseรฑar a reconocer y recordar una secuencia
de patrones. Esto significa que cuando se muestra una versiรณn ligeramente
alterada de un patrรณn especรญfico, la red es capaz de vincularla al patrรณn mรกs similar
que se le haya enseรฑado y recuperar la versiรณn original de ese patrรณn especรญfico.
La clasificaciรณn, en un contexto matemรกtico, implica la particiรณn de un espacio
multidimensional en mรบltiples regiones. Su finalidad es determinar la regiรณn a la que
pertenece un punto determinado del espacio. Este concepto encuentra aplicaciรณn en
numerosos escenarios de la vida real, como en diversos programas de reconocimiento de
patrones.
En estos programas, cada patrรณn se convierte en un punto multidimensional y
luego se clasifica en un grupo especรญfico, cada uno de los cuales representa un patrรณn
conocido. La selecciรณn de variables apropiadas se vuelve crucial, ya que es necesario
identificar las caracterรญsticas o variables mรกs adecuadas para describir y analizar los
objetos bajo estudio. El reconocimiento de patrones se puede lograr mediante el uso de
redes neuronales o empleando mรฉtodos estadรญsticos (Reconocimiento estadรญstico de
patrones: REP).
La regresiรณn
Cuando se trata de problemas de ajuste de datos, el objetivo principal de una red
neuronal es identificar las salidas numรฉricas asociadas con un conjunto determinado de
entradas numรฉricas. Para realizar esta tarea, nftool, que es una herramienta de ajuste de
datos, emplea una red neuronal feedforward de dos capas. Esta red neuronal se entrena
mediante algoritmos como Levenberg Marquardt, gradiente conjugado o mรฉtodos
Pรกg. 123
bayesianos. Al utilizar esta herramienta, los usuarios tienen la flexibilidad de cargar sus
propios datos o importar un conjunto de datos desde Matlabยฎ.
En el รกmbito de los problemas de reconocimiento de patrones que implican
clasificaciรณn, la red neuronal estรก diseรฑada para categorizar las entradas en un conjunto
predeterminado de categorรญas de salida. En otras palabras, el objetivo es determinar la
categorรญa especรญfica que corresponde al insumo analizado. Para realizar esta tarea en
Matlabยฎ, tiene la opciรณn de utilizar la herramienta net = patternnet(hiddenSizes, trainFcn,
performFcn).
Cuando se trata de problemas de agrupamiento, el objetivo es emplear una red
neuronal que pueda categorizar datos segรบn sus similitudes. Un enfoque eficaz es utilizar
redes equipadas con mapas autoorganizados (SOM). Estas redes estรกn compuestas por
una capa competitiva que posee la capacidad de clasificar un conjunto de datos que
comprende vectores de diferentes dimensiones. El nรบmero de clasificaciones que puede
realizar estรก determinado por el nรบmero de neuronas dentro de la capa. Estas neuronas
estรกn dispuestas en una estructura bidimensional, lo que permite que la capa cree una
representaciรณn de la distribuciรณn del conjunto de datos y genere una aproximaciรณn
bidimensional de su topologรญa.
Los datos de entrenamiento: validaciรณn y de testeo
Los datos de entrenamiento se utilizan para entrenar el modelo ajustando sesgos
y ponderaciones, particularmente en el caso de una red neuronal. En otras palabras, el
modelo aprende de los datos de entrenamiento. Por otro lado, el conjunto de datos de
validaciรณn sirve para evaluar la generalizaciรณn del modelo y determinar cuรกndo detener
el entrenamiento si el rendimiento del modelo ya no mejora. Este conjunto de datos
permite la evaluaciรณn del rendimiento del modelo mientras se entrena con los datos de
entrenamiento. Por tanto, los datos de validaciรณn influyen indirectamente en la etapa de
desarrollo del modelo.
Por el contrario, el conjunto de datos de prueba no afecta el proceso de
capacitaciรณn y se utiliza รบnicamente para medir el rendimiento de la red de forma
independiente despuรฉs de haber sido entrenada. Antes de utilizar los datos de prueba, la
red debe entrenarse utilizando tanto los datos de entrenamiento como los de validaciรณn.
Ocasionalmente, el conjunto de validaciรณn se puede utilizar como sustituto del conjunto
Pรกg. 124
de prueba, pero no se recomienda esta prรกctica. Idealmente, el conjunto de prueba
deberรญa abarcar datos que representen todas las clases posibles, lo que permitirรก que la
red funcione correctamente en escenarios del mundo real. En la siguiente ilustraciรณn se
puede ver un ejemplo de cรณmo asignar porcentajes para datos de entrenamiento, datos
de validaciรณn y datos de prueba. Estos porcentajes pueden variar y no existe un criterio
universalmente aplicable; se pueden encontrar diferentes recomendaciones en la
literatura (Vorobioff, 2022).
El
reconocimiento estadรญstico de los patrones
El reconocimiento de patrones estadรญsticos (REP) es un mรฉtodo que se basa en la
teorรญa de la probabilidad y la estadรญstica para analizar datos. Opera bajo el supuesto de
que las mediciones que se analizan siguen distribuciones de probabilidad conocidas. El
proceso de reconocimiento implica utilizar estas distribuciones para hacer inferencias y
decisiones. En cuanto al aspecto de reconocer los patrones, se considera que es un proceso
integral que abarca todos los aspectos de la investigaciรณn y la resoluciรณn de problemas.
Implica analizar datos mediante discriminaciรณn y clasificaciรณn, con el objetivo de
comprender y evaluar los resultados obtenidos.
El sistema de reconocimiento de patrones dentro de un sistema de mediciรณn, que
se puede dividir en distintas etapas:
โ€ข el sistema de adquisiciรณn de datos, responsable de recolectar las mediciones;
โ€ข el sistema de extracciรณn de parรกmetros, que identifica caracterรญsticas relevantes de
los datos;
โ€ข los clasificadores, que categorizan los datos en funciรณn de sus patrones; y
Pรกg. 125
โ€ข la estrategia de toma de decisiones, que determina los resultados finales con base
en los resultados de la clasificaciรณn.
Cuando se trata de mediciones que se dividen en varios grupos, los clasificadores
no siempre proporcionan una indicaciรณn clara del grupo especรญfico de la mediciรณn que se
estรก realizando. En cambio, es posible que solo proporcionen un valor analรณgico. En tales
casos, se hace necesario establecer lรญmites y tรฉcnicas para determinar el resultado
apropiado. La prรณxima ilustraciรณn representa un sistema bรกsico de reconocimiento de
patrones, en el que las diferentes etapas pueden incorporar retroalimentaciรณn de salida
(Vorobioff, 2022).
Las tรฉcnicas de reconocimiento de patrones
Existen diversas formas que se pueden clasificar en:
โ€ข Reconocimiento de patrones estadรญsticos (REP)
โ€ข Tรฉcnicas que utilizan inteligencia artificial (IA), incluido el uso de redes neuronales
y lรณgica difusa.
Los datos se pueden dividir en dos categorรญas principales: variables parcialmente
independientes, tambiรฉn conocidas como variables de mediciรณn, y variables
dependientes, que pueden denominarse clases o grupos.
Los algoritmos de reconocimiento de patrones se pueden clasificar en enfoques
supervisados y no supervisados. Los mรฉtodos no supervisados implican la exploraciรณn
Pรกg. 126
de datos, mientras que los mรฉtodos supervisados implican entrenar los algoritmos con
resultados conocidos para fines de clasificaciรณn.
โ€ข Los algoritmos supervisados se utilizan para asignar un descriptor o salida a un
vector de datos de entrada determinado en funciรณn de sus mediciones. Este
descriptor, tambiรฉn conocido como salida o respuesta del sistema, es un vector que
se determina durante el proceso de entrenamiento. La capacitaciรณn implica
organizar un conjunto de mediciones en diferentes grupos o clases en funciรณn de
sus similitudes, y el vector descriptor ayuda a identificar el grupo especรญfico al que
pertenece cada mediciรณn. Para que los algoritmos clasifiquen con precisiรณn nuevos
datos, es necesario entrenarlos y establecer sus parรกmetros internos. Una vez
finalizada la fase de aprendizaje o entrenamiento, el algoritmo puede analizar
datos de una mediciรณn que pertenece a un grupo desconocido y clasificarlos en
funciรณn del entrenamiento al que ha sido sometido.
โ€ข Los algoritmos no supervisados se diferencian de los supervisados en que no se
basan en descriptores preasignados. En cambio, estos algoritmos se entrenan y
modifican sus parรกmetros identificando y aprovechando patrones o similitudes
dentro de los datos.
Los mรฉtodos estadรญsticos se clasifican como paramรฉtricos porque operan bajo el
supuesto de que los datos pueden caracterizarse mediante funciones de densidad de
probabilidad. Dentro de esta categorรญa, hay varias tรฉcnicas disponibles, como el anรกlisis
de componentes principales (PCA), el anรกlisis de factores discriminantes (DFA), el anรกlisis
de la funciรณn de densidad de probabilidad utilizando el teorema de Bayes, el mรฉtodo de
regresiรณn de mรญnimos cuadrados parciales (PLS) y los algoritmos de separaciรณn de grupos
como la agrupaciรณn jerรกrquica y k-means.
Las tรฉcnicas de inteligencia artificial (IA), tal como las definen, abarcan una amplia
gama de mรฉtodos que se inspiran en modelos biolรณgicos. Estas tรฉcnicas se pueden
clasificar en tres subgrupos distintos, cada uno de los cuales ofrece su propio enfoque
รบnico y un conjunto de principios intuitivos. Al explorar y aprovechar el poder de estas
tรฉcnicas de IA, los investigadores y desarrolladores han podido profundizar en el รกmbito
de los sistemas inteligentes y crear soluciones innovadoras que imitan las capacidades de
los organismos vivos.
Pรกg. 127
โ€ข Las redes neuronales artificiales (ANN) constan de varios componentes, como la
propagaciรณn hacia atrรกs de errores (BP), el perceptron multicapa (MLP) y las redes
de funciones de base radial (RBF). Ademรกs, existen mapas autoorganizados
(SOM), cuantificaciรณn de vectores de aprendizaje (LVQ), redes dinรกmicas
recurrentes y sistemas adaptativos. Estos diferentes elementos y tรฉcnicas
contribuyen a la funcionalidad y eficacia general de las redes neuronales
artificiales.
โ€ข Los algoritmos de lรณgica difusa, tambiรฉn conocidos como lรณgica difusa, y la
aplicaciรณn de reglas o razonamientos difusos, desempeรฑan un papel importante
en diversos campos e industrias. Estos algoritmos y reglas estรกn diseรฑados para
manejar la incertidumbre y la vaguedad en los procesos de toma de decisiones,
proporcionando asรญ un enfoque mรกs flexible y matizado para la resoluciรณn de
problemas. Al incorporar lรณgica difusa, los sistemas pueden capturar y procesar
con precisiรณn informaciรณn imprecisa o incompleta, lo que genera mejores
resultados y capacidades de toma de decisiones. Los algoritmos de lรณgica difusa
se utilizan ampliamente en รกreas como la inteligencia artificial, sistemas de control,
reconocimiento de patrones y anรกlisis de datos, entre otras, destacando su
versatilidad y eficacia para abordar problemas complejos del mundo real. La
esencia de la lรณgica difusa radica en su capacidad de imitar el razonamiento
humano al considerar mรบltiples grados de verdad, lo que permite modelar con
mayor precisiรณn fenรณmenos inciertos o subjetivos. Como resultado, los algoritmos
de lรณgica difusa han ganado prominencia y continรบan mejorando las capacidades
de diversas aplicaciones, permitiendo sistemas mรกs inteligentes y adaptables en
un mundo cada vez mรกs incierto y complejo.
โ€ข Se han empleado algoritmos genรฉticos para seleccionar parรกmetros.
El aprendizaje y la generalizaciรณn
La generalizaciรณn de una red neuronal tiene como objetivo lograr un buen
desempeรฑo cuando se le presentan nuevos inputs que no fueron utilizados durante el
entrenamiento. Estas nuevas entradas, conocidas como entradas de prueba, no se utilizan
para ajustar los parรกmetros internos de la red. Las redes neuronales pueden funcionar
como clasificadores, asignando clases discretas a vectores de entrada, o como regresores,
Pรกg. 128
asignando vectores de salida continuos a vectores de entrada continuos. Inicialmente no
se conocen las funciones de clasificaciรณn y regresiรณn inferidas por las redes neuronales.
En cambio, se utiliza un conjunto de entrenamiento para proporcionar ejemplos de
entrada y salida de la funciรณn.
A travรฉs del entrenamiento, la red neuronal identifica esta "funciรณn desconocida"
basรกndose รบnicamente en los datos de entrenamiento proporcionados. Los parรกmetros
de la funciรณn, como los pesos y los sesgos de las neuronas, se estiman para replicar la
relaciรณn entre las entradas y salidas del entrenamiento con la mayor precisiรณn posible.
Ademรกs, se espera que la red tenga un buen desempeรฑo con nuevos datos, lo que indica
que se ha generalizado con รฉxito. Sin embargo, lograr un rendimiento de generalizaciรณn
รณptimo en datos nuevos no significa necesariamente replicar los datos de entrenamiento
a la perfecciรณn.
Por ejemplo, si solo hay unos pocos patrones de entrenamiento pero una red
neuronal grande, puede ser fรกcil encontrar pesos que reproduzcan el conjunto de
entrenamiento, pero es poco probable que la red resultante haya aprendido efectivamente
a manejar nuevos datos. Por el contrario, si existen numerosos patrones de entrenamiento
y la red estรก entrenada para replicarlos, es mรกs probable que responda correctamente a
nuevos datos. Estas intuiciones deben perfeccionarse utilizando mรฉtodos que mejoren las
capacidades de generalizaciรณn de las redes neuronales.
La evaluaciรณn de la generalizaciรณn
La generalizaciรณn de una red se puede determinar probando su rendimiento
utilizando nuevos datos. Sin embargo, es importante tener cuidado con el tipo de datos
utilizados. Si utilizamos constantemente el mismo conjunto de datos de entrenamiento,
incluso si el algoritmo de entrenamiento ya no lo utiliza, esencialmente nos estamos
esforzando por lograr el mejor rendimiento รบnicamente en ese conjunto especรญfico.
Normalmente, trabajamos con tres conjuntos de datos: el conjunto de entrenamiento, que
se utiliza para ajustar los pesos y sesgos de la red; el conjunto de validaciรณn o desarrollo,
que se utiliza durante la capacitaciรณn para evaluar el desempeรฑo actual de la red y guiar
el proceso de capacitaciรณn; y el conjunto de prueba, que consta de datos desconocidos
para los que queremos encontrar respuestas una vez que la red ha sido entrenada. Es
Pรกg. 129
importante tener en cuenta que el conjunto de pruebas no influye en el proceso de
formaciรณn.
El entrenamiento y la generalizaciรณn
Durante la fase de entrenamiento, una red neuronal puede realizar diversas
funciones ajustando sus parรกmetros en funciรณn de una arquitectura especรญfica. Sin
embargo, no siempre es posible que la red aprenda con precisiรณn todos los datos de
entrenamiento en las tareas de reconocimiento de patrones. De hecho, hay casos en los
que ni siquiera es deseable que la red lo haga. Para evaluar el desempeรฑo de la red en
problemas del mundo real despuรฉs del entrenamiento, se utiliza una mรฉtrica llamada
generalizaciรณn. Esta medida evalรบa quรฉ tan bien se desempeรฑa la red en datos de
evaluaciรณn que no se utilizaron durante el proceso de capacitaciรณn. Aunque la red
compleja puede responder bien a los datos de entrenamiento, es posible que no se
generalice bien a datos nuevos e invisibles.
Por otro lado, la red simple con una representaciรณn en lรญnea recta puede ser mรกs
adecuada para representar con precisiรณn los nuevos datos de prueba. En el proceso de
entrenamiento, la red se entrena de la forma habitual minimizando la funciรณn de error
con respecto al conjunto de datos de entrenamiento. Sin embargo, el rendimiento en un
conjunto de entrenamiento se estima utilizando el conjunto de validaciรณn. Por ejemplo, si
comparamos el rendimiento de dos redes en un pequeรฑo conjunto de datos de
entrenamiento, siendo una red simple que implementa una lรญnea recta (que representa
una red de una sola capa) y la otra es una red multicapa mรกs compleja con numerosas
redes ocultas. unidades. La red compleja puede aproximarse perfectamente a la funciรณn,
mientras que la red de una sola capa ajusta los datos razonablemente bien con una lรญnea
recta, pero con una mayor tasa de error.
Generalmente se puede decir:
โ€ข Lograr buenos resultados con los datos de entrenamiento no siempre garantiza
buenos resultados con los datos generalizados.
โ€ข Las soluciones mรกs simples tienden a tener una mayor probabilidad de
generalizarse de manera efectiva en comparaciรณn con las soluciones complejas, a
menos que haya una cantidad sustancial de datos de entrenamiento que sugieran
Pรกg. 130
lo contrario. Esto significa que, en la mayorรญa de los casos, mantener las soluciones
simples y directas conduce a un mejor rendimiento y aplicabilidad generales. Si
bien, es crucial considerar la influencia de un volumen significativo de datos de
entrenamiento, ya que puede revelar excepciones en las que las soluciones
complejas superan a las mรกs simples.
โ€ข Las redes complejas requieren una mayor cantidad de datos de entrenamiento.
Esto significa que para que las redes complejas aprendan y se adapten
eficazmente, necesitan introducir una cantidad significativamente mayor de datos
en su sistema. Sin una cantidad suficiente de datos de entrenamiento, las redes
complejas pueden tener dificultades para procesar y comprender con precisiรณn
patrones y relaciones complejos dentro de los datos que reciben. Por lo tanto, es
crucial proporcionar una cantidad sustancial de datos de entrenamiento para
garantizar el rendimiento y la eficiencia รณptimos de redes complejas.
โ€ข Un modelo que carece de complejidad es rรญgido y propenso a sesgos importantes.
โ€ข Un modelo complejo posee un mayor nivel de adaptabilidad cuando se trata de
datos de entrenamiento y muestra sesgos mรญnimos.
La redes neuronales con mapas autoorganizados
Las redes neuronales autoorganizadas, comรบnmente conocidas como SOM, son
tรฉcnicas no supervisadas sofisticadas e intrincadas que se utilizan en el anรกlisis de datos.
Estas redes tienen la capacidad de transformar y proyectar datos en un espacio novedoso,
generando asรญ mapas que exhiben representaciones discretas. Las neuronas
constituyentes de la red poseen la capacidad de organizarse de forma autรณnoma y
participar en interacciones competitivas entre sรญ.
Esta autoorganizaciรณn se facilita mediante la utilizaciรณn de funciones de
proximidad o vecindad. Una de las ventajas clave de los SOM es su eficacia para reducir
la dimensionalidad de los datos de entrada, lo que a menudo da como resultado la
visualizaciรณn de resultados a travรฉs de mapas bidimensionales. Vale la pena seรฑalar que
los SOM tambiรฉn se denominan mapas de Kohonen, en homenaje al profesor Teuvo
Kohonen, quien inicialmente conceptualizรณ y describiรณ este modelo.
Pรกg. 131
Un tipo fascinante de sistema no supervisado se centra en el aprendizaje
competitivo, donde las neuronas de salida participan en una batalla por la activaciรณn, lo
que da como resultado que solo se activen las neuronas victoriosas. Para facilitar esta
competencia, se establecen vรญas de retroalimentaciรณn entre las neuronas, obligรกndolas a
organizarse en consecuencia. Esta red se conoce como mapa autoorganizado (SOM).
El objetivo principal de un mapa autoorganizado (SOM) es convertir un patrรณn de
una seรฑal de entrada con cualquier nรบmero de dimensiones en un nuevo mapa discreto
con una o dos dimensiones. Esta transformaciรณn debe realizarse de manera que sea
adaptable y mantenga un orden especรญfico. Para lograr esto, configuramos nuestro SOM
colocando neuronas en los nodos de una red que puede ser unidimensional o
bidimensional. Si bien es posible utilizar mapas con dimensiones mayores, normalmente
no se utilizan.
Las neuronas poseen la capacidad de adaptarse especรญficamente a diferentes
patrones de entrada o categorรญas de patrones de entrada a travรฉs del aprendizaje
competitivo. Esto implica organizar las neuronas segรบn su ubicaciรณn y establecer un
nuevo sistema de coordenadas para las entradas en la red neuronal. Este proceso puede
verse como una expansiรณn del PCA, que es un mรฉtodo lineal para analizar componentes
principales.
En la siguiente figura, los datos se representan en un mapa autoorganizado
mediante un proceso de mapeo de las entradas ๐‘ฅ๐‘ฅ del espacio de entrada al espacio de
salida, lo que da como resultado los puntos ๐ผ๐ผ(๐‘ฅ๐‘ฅ). Luego, cada punto ๐ผ๐ผ en el espacio de
salida se asigna nuevamente a su punto correspondiente ๐‘ค๐‘ค(๐ผ๐ผ) en el espacio de entrada.
Este proceso de mapeo permite una representaciรณn visual de la relaciรณn entre los espacios
de entrada y salida en el mapa autoorganizado (Vorobioff, 2022).
Pรกg. 132
En este anรกlisis, nos centraremos en la Red Kohonen, que es un tipo especรญfico de
Mapa Autoorganizado (SOM). La estructura de este SOM se caracteriza por una
disposiciรณn feedforward, que consta de una รบnica capa computacional organizada en filas
y columnas. Dentro de esta red, cada neurona estรก conectada a todos los nodos fuente
presentes en la capa de entrada. La proyecciรณn de datos para estas redes neuronales se
puede observar en la prรณxima ilustraciรณn. Cabe seรฑalar que si el mapa se representara de
manera unidimensional, solo constarรญa de una sola fila o columna dentro de la capa
computacional (Vorobioff, 2022).
El proceso de autoorganizaciรณn consta de cuatro componentes principales:
โ€ข En la etapa de inicializaciรณn, los pesos del sistema se establecen asignรกndoles
pequeรฑos valores aleatorios.
โ€ข En un entorno competitivo, las neuronas de la red realizan cรกlculos para
determinar los valores de una funciรณn discriminante. Esta funciรณn sirve como base
para la competencia, ya que la neurona con el valor mรกs bajo es reconocida como
la ganadora.
โ€ข La cooperaciรณn juega un papel crucial en el funcionamiento de las redes
neuronales, ya que implica la interacciรณn y coordinaciรณn entre neuronas vecinas.
Este proceso es facilitado por la neurona ganadora, que ayuda a determinar la
ubicaciรณn espacial del vecindario topolรณgico que contiene las neuronas excitadas.
Pรกg. 133
En otras palabras, la cooperaciรณn asegura que las neuronas prรณximas trabajen
juntas en armonรญa para lograr el resultado deseado.
โ€ข El proceso de adaptaciรณn implica que las neuronas excitadas disminuyan los
valores de su funciรณn discriminante en relaciรณn con el patrรณn de entrada ajustando
los pesos de conexiรณn en consecuencia. Este ajuste conduce a una mejora en la
respuesta de la neurona ganadora cuando se aplica nuevamente un patrรณn de
entrada similar.
Durante el proceso de competencia, tenemos la capacidad de establecer nuestra
funciรณn discriminante. Esta funciรณn se define como la distancia euclidiana al cuadrado
entre el vector de entrada ๐‘ฅ๐‘ฅ y el vector de peso ๐‘ค๐‘ค๐‘–๐‘– para cada neurona ๐‘—๐‘—. Esta ecuaciรณn
nos permite determinar el nivel de competencia entre las neuronas.
En concreto, la neurona ganadora se determina identificando el vector de peso que
es mรกs similar al vector de entrada. Al hacerlo, establecemos una conexiรณn entre el
espacio de entrada continuo y el espacio de salida discreto de las neuronas a travรฉs de un
proceso sencillo de competencia neuronal.
En 1982, un investigador Kohonen introdujo el modelo de red conocido como
mapas autoorganizados (SOM), que se inspirรณ en hallazgos fascinantes en el campo de la
neurociencia. Este concepto innovador mostrรณ una tremenda promesa para aplicaciones
del mundo real, presentando una oportunidad emocionante para una mayor exploraciรณn
y desarrollo.
La red se distingue porque emplea aprendizaje competitivo no supervisado. Asรญ,
a diferencia del aprendizaje supervisado, en el que un profesor externo proporciona
retroalimentaciรณn sobre el rendimiento de la red, el aprendizaje no supervisado funciona
sin dicha orientaciรณn. En consecuencia, la red autoorganizada debe identificar de forma
autรณnoma caracterรญsticas, patrones, correlaciones o categorรญas comunes dentro de los
datos de entrada e integrarlos en su estructura interna de conexiones.
Pรกg. 134
Lo anterior implica que las neuronas dentro de la red deben autoorganizarse en
respuesta a estรญmulos (datos) recibidos de fuentes externas. Dentro del รกmbito del
aprendizaje no supervisado, existe un subconjunto de modelos de red que emplean el
aprendizaje competitivo. Para el aprendizaje competitivo, las neuronas entablan una
competencia entre sรญ para realizar una tarea determinada. El objetivo de este enfoque de
aprendizaje es activar sรณlo una neurona de salida (o un grupo de neuronas vecinas)
cuando se le presenta un patrรณn de entrada. Por lo tanto, las neuronas compiten entre sรญ,
lo que finalmente resulta en que una neurona emerja como ganadora mientras que las
neuronas restantes son suprimidas y forzadas a sus valores mรญnimos de respuesta.
El objetivo principal de este mรฉtodo de aprendizaje es categorizar o agrupar los
datos de entrada que se introducen en la red. Esto implica clasificar informaciรณn similar
como perteneciente a la misma categorรญa, activando asรญ la misma neurona de salida. La
propia red debe generar estas clases o categorรญas, ya que opera de manera no supervisada,
basรกndose en correlaciones entre los datos de entrada.
Los fundamentos biolรณgicos
En el cรณrtex de los animales superiores existen regiones especรญficas donde las
neuronas que detectan caracterรญsticas estรกn dispuestas de manera sistemรกtica (Kohonen,
1989, 1990). Esto significa que la informaciรณn obtenida del entorno circundante a travรฉs
de nuestros sentidos se representa internamente como mapas bidimensionales. Por
ejemplo, en el รกrea somatosensorial, las neuronas que reciben seรฑales de sensores
ubicados cerca de la piel tambiรฉn se encuentran cerca de la corteza.
Como resultado, estas neuronas esencialmente crean un mapa que se asemeja a la
superficie de la piel dentro de un รกrea especรญfica de la corteza cerebral. De manera similar,
en el sistema visual se han identificado mapas del espacio visual en diferentes regiones
del cerebro. Ademรกs, en lo que respecta al sentido del oรญdo, hay regiones especรญficas del
cerebro que representan mapas tonotรณpicos. Estos mapas estรกn organizados de manera
que las neuronas que detectan ciertas caracterรญsticas relacionadas con el tono de un
sonido se organizan en un patrรณn bidimensional.
Se cree que una parte considerable de la organizaciรณn neuronal estรก determinada
por la genรฉtica, pero tambiรฉn hay evidencia que sugiere que un cierto grado de ella puede
estar influenciado por el aprendizaje. Esto implica que el cerebro podrรญa poseer una
Pรกg. 135
capacidad innata para crear mapas topolรณgicos de la informaciรณn que recibe del entorno
externo.
Por el contrario, se ha observado que el impacto que tiene una sola neurona sobre
sus neuronas vecinas depende de la distancia entre ellas. Cuando las neuronas estรกn muy
separadas, esta influencia es mรญnima. Las investigaciones han demostrado que ciertos
primates experimentan interacciones laterales entre sus neuronas. Estas interacciones
pueden ser excitadoras o inhibidoras, dependiendo de la proximidad de las neuronas.
Las interacciones excitadoras ocurren dentro de un radio de 50 a 100 micrones, mientras
que las interacciones inhibidoras tienen lugar en un anillo circular que varรญa de 150 a 400
micrones de ancho alrededor del cรญrculo anterior. Asimismo, se producen interacciones
excitadoras muy dรฉbiles que prรกcticamente no tienen efecto a partir de ese punto hasta
una distancia de varios centรญmetros. Este patrรณn distintivo de interacciรณn se asemeja a la
forma de un sombrero mexicano, como exploraremos con mรกs detalle mรกs adelante.
El modelo de red autoorganizada propuesto por Kohonen estรก diseรฑado para
replicar, de manera simplificada, la capacidad del cerebro para crear mapas topolรณgicos
basados en seรฑales entrantes del entorno externo.
La arquitectura
Un modelo de mapa autoorganizado (SOM) consta de dos capas de neuronas. La
primera capa, conocida como capa de entrada, estรก compuesta por N neuronas, y cada
neurona corresponde a una variable de entrada. Su funciรณn principal es recibir y
transmitir informaciรณn desde el entorno externo a la segunda capa, conocida como capa
de salida. La capa de salida, por otro lado, es responsable de procesar la informaciรณn
recibida y crear un mapa de caracterรญsticas. Normalmente, las neuronas de la capa de
salida estรกn dispuestas en un mapa bidimensional, sin embargo, en algunos casos,
tambiรฉn se utilizan capas unidimensionales (cadena lineal) o tridimensionales
(paralelepรญpedo).
La red se compone de dos capas y las conexiones entre ellas son siempre en
direcciรณn directa. Esto significa que la informaciรณn fluye desde la capa de entrada a la
capa de salida. Cada neurona de entrada estรก conectada a cada neurona de salida
mediante un peso. Estos pesos estรกn representados por un vector de pesos llamado vector
Pรกg. 136
de referencia o libro de cรณdigos. El vector de referencia sirve como prototipo o promedio
de la categorรญa que representa la neurona de salida.
En la capa de salida existen conexiones laterales que pueden describirse como
excitaciรณn e inhibiciรณn implรญcitas. Aunque estas neuronas no estรกn directamente
vinculadas, todavรญa ejercen una influencia sobre las neuronas vecinas. Esta influencia se
establece mediante un proceso competitivo entre las neuronas y la utilizaciรณn de una
funciรณn conocida como vecindad, que se analizarรก mรกs adelante.
El algoritmo
El algoritmo utilizado en el modelo de mapa autoorganizado (SOM) consta de dos
etapas principales. En primer lugar, estรก la etapa operativa donde la red entrenada recibe
un patrรณn de entrada y lo relaciona con la neurona o categorรญa que tiene el vector de
referencia mรกs similar. En segundo lugar, estรก la etapa de entrenamiento o aprendizaje
donde las categorรญas que componen el mapa se ordenan de manera no supervisada, en
base a las relaciones identificadas en el conjunto de datos de entrenamiento.
La etapa del funcionamiento
Cuando se presenta un patrรณn de entrada p Xp: xp1,..., xpi,...,xpN, se transmite
directamente desde la capa de entrada a la capa de salida. En la capa de salida, cada
neurona realiza cรกlculos para determinar la similitud entre el vector de entrada Xp y su
propio vector de peso Wj o vector de referencia en funciรณn de una medida de distancia
especรญfica o un criterio de similitud establecido. Este proceso competitivo implica
seleccionar como ganadora la neurona cuyo vector de peso sea mรกs similar al de entrada.
La siguiente expresiรณn matemรกtica representa la activaciรณn de las neuronas M cuando se
presenta el patrรณn de entrada Xp.
Pรกg. 137
La variable "ypj" se utiliza para representar la salida o el nivel de activaciรณn de las
neuronas de salida, y esto estรก determinado por el resultado de la competiciรณn. En esta
competiciรณn, a una neurona ganadora se le asigna un valor de 1, mientras que a una
neurona no ganadora se le asigna un valor de 0. La expresiรณn "||Xp-Wj||" se utiliza para
medir la similitud entre el vector de entrada (Xp) y el vector de peso (Wj) de las
conexiones entre las neuronas de entrada y la neurona de salida j. Esta medida de
similitud es crucial para determinar la neurona ganadora.
Durante esta etapa particular de operaciรณn, el objetivo principal es identificar el
vector de referencia que se parezca mucho al vector de entrada. Esto nos permite
determinar quรฉ neurona es la ganadora y, lo que es mรกs importante, determinar la
ubicaciรณn especรญfica de esta neurona dentro del espacio de salida bidimensional, teniendo
en cuenta las interacciones excitadoras e inhibidoras entre las neuronas. Por tanto, la red
Self-Organizing Map (SOM) funciona como una herramienta de clasificaciรณn, ya que la
neurona de salida activada corresponde a la clase a la que pertenece la informaciรณn de
entrada. Ademรกs, como entradas similares activan las mismas neuronas de salida o las
vecinas, debido a la similitud entre clases, se garantiza que las neuronas topolรณgicamente
prรณximas respondan a entradas fรญsicamente comparables. Como resultado, esta red
resulta particularmente valiosa para establecer conexiones no identificadas previamente
entre conjuntos de datos.
La etapa de aprendizaje
En primer lugar, es importante reconocer que no existe un algoritmo de
aprendizaje universalmente aceptado para la red SOM. A pesar de esto, el procedimiento
en sรญ es conocido por su resiliencia, ya que el resultado final no se ve significativamente
influenciado por los detalles especรญficos de la implementaciรณn. Como resultado, nos
esforzaremos en esbozar el algoritmo mรกs frecuente tรญpicamente vinculado a este modelo,
como lo describe Kohonen en sus trabajos publicados en 1982a, 1982b, 1989 y 1995.
El objetivo principal del algoritmo de aprendizaje es determinar distintas
categorรญas, representadas por las neuronas de salida, mediante la presentaciรณn de un
conjunto de patrones de entrenamiento. Estas categorรญas luego se utilizarรกn durante la
fase operativa para clasificar nuevos patrones de entrada.
Pรกg. 138
Asรญ, el proceso de aprendizaje se puede simplificar y entender de la siguiente
manera. Cuando se introduce y procesa un vector de entrada, la neurona ganadora se
determina comparando su vector de peso con el vector de entrada. La neurona con el
vector de peso mรกs similar se considera ganadora. Posteriormente, el vector de peso de
la neurona ganadora se ajusta para que se parezca mรกs al vector de entrada. Este ajuste
garantiza que cuando se presente el mismo patrรณn de entrada en el futuro, la neurona
ganadora responderรก aรบn con mรกs fuerza. Este proceso se repite para un conjunto de
patrones de entrada que se presentan repetidamente a la red. Finalmente, los diferentes
vectores de peso se alinean con uno o mรกs patrones de entrada, creando dominios
especรญficos dentro del espacio de entrada. Si estos dominios se agrupan, cada neurona se
especializa en uno de ellos. Esta interpretaciรณn nos permite ver la funciรณn principal de la
red como un anรกlisis de conglomerados.
Una forma interesante de comprender el funcionamiento de la red SOM es a travรฉs
de una interpretaciรณn geomรฉtrica propuesta por Masters en 1993 (Palmer et al., 2002). Esta
interpretaciรณn arroja luz sobre el proceso de aprendizaje de la red. Esencialmente, la regla
de aprendizaje empleada en la red SOM tiene como objetivo acercar repetidamente el
vector de peso de la neurona con mayor actividad (tambiรฉn conocida como ganadora) al
vector de entrada. En tรฉrminos mรกs simples, la regla de aprendizaje garantiza que la
neurona con mayor actividad ajuste continuamente su vector de peso para alinearse mรกs
estrechamente con el vector de entrada. Este proceso iterativo de rotaciรณn y enfoque
facilita que la red aprenda y se adapte a los datos de entrada. En cada iteraciรณn del
proceso de aprendizaje, el vector de peso de la neurona ganadora sufre una rotaciรณn hacia
el vector de entrada. Esta rotaciรณn va acompaรฑada de un acercamiento hacia el vector de
entrada, y el alcance de este acercamiento estรก determinado por la magnitud de la tasa de
aprendizaje.
Inicialmente, durante las primeras etapas del entrenamiento, los vectores de peso
de las tres neuronas (representados por vectores rojos) se distribuyen aleatoriamente
alrededor de la circunferencia. Sin embargo, a medida que avanza el proceso de
aprendizaje, estos vectores de peso se acercan gradualmente a las muestras del espacio
de entrada. Con el tiempo, se estabilizan y sirven como centroides de los tres grupos. En
general, la prรณxima ilustraciรณn proporciona una representaciรณn visual de cรณmo opera la
regla de aprendizaje en el contexto de un espacio de entrada bidimensional, mostrando
Pรกg. 139
la convergencia de los vectores de peso hacia los patrones en el espacio de entrada, lo que
finalmente resulta en el establecimiento de centroides para los grupos (Palmer et al.,
2002).
Cuando finaliza el proceso de aprendizaje, el vector de referencia de cada neurona
de salida se alinearรก con el vector de entrada que activa con รฉxito esa neurona especรญfica.
En escenarios donde la cantidad de patrones de entrenamiento excede la cantidad de
neuronas de salida, es necesario asignar mรบltiples patrones a la misma neurona,
formando asรญ una clase. Para lograr esto, los pesos que componen el vector de referencia
se derivan calculando el promedio (centroide) de estos patrones.
Ademรกs del esquema de aprendizaje competitivo mencionado anteriormente, el
modelo de mapa autoorganizado (SOM) introduce un concepto importante al incorporar
las relaciones entre neuronas vecinas en el mapa. Esto se logra mediante la
implementaciรณn de una funciรณn de zona de vecindad, que define un entorno que rodea a
la neurona ganadora. Esta funciรณn juega un papel crucial en el proceso de aprendizaje ya
que permite la actualizaciรณn simultรกnea tanto de los pesos de la neurona ganadora como
de las neuronas vecinas.
En general, el modelo SOM no sรณlo incorpora el aprendizaje competitivo sino que
tambiรฉn considera las relaciones entre neuronas vecinas. Esto le permite capturar la
estructura topolรณgica del espacio de entrada y proporcionar una poderosa herramienta
Pรกg. 140
para la representaciรณn y el anรกlisis de datos. Al actualizar los pesos de las neuronas
cercanas, el modelo SOM garantiza que estas neuronas se adapten a patrones similares.
Esto da como resultado un orden topolรณgico que se refleja en el mapa, representando la
estructura subyacente del espacio de entrada. Este mecanismo permite que el modelo
SOM capture las relaciones espaciales entre diferentes puntos de datos, mejorando su
capacidad para representar conjuntos de datos complejos.
Para comprender el proceso de aprendizaje del modelo SOM de una manera mรกs
matemรกtica, es importante reconocer la identificaciรณn de la neurona de salida ganadora
cuando se presenta un patrรณn de entrenamiento. Esto implica encontrar la neurona cuyo
vector de peso sea mรกs similar al patrรณn de entrada. Un criterio de similitud comรบnmente
utilizado es la distancia euclidiana, que se puede calcular mediante una expresiรณn
especรญfica.
Segรบn este criterio, la similitud entre dos vectores aumenta a medida que
disminuye su distancia. Otra medida de similitud, mรกs sencilla en comparaciรณn con el
mรฉtodo euclidiano, es la correlaciรณn o producto escalar:
Cuanto mรกs correlacionados estรฉn dos vectores, mรกs similares serรกn. Una vez que
hemos determinado la neurona ganadora en funciรณn de su similitud, podemos ajustar su
vector de peso y el de sus neuronas vecinas usando la regla de aprendizaje.
La variable
"n" representa el nรบmero de ciclos o iteraciones en el proceso de aprendizaje, indicando
cuรกntas veces se ha presentado y procesado todo el conjunto de patrones de
entrenamiento. La tasa de aprendizaje, denominada "(n)", comienza con un valor inicial
Pรกg. 141
entre 0 y 1 y disminuye a medida que aumenta el nรบmero de iteraciones. La zona de
vecindad, denominada Zonaj*(n), abarca el รกrea circundante de la neurona ganadora j*
donde se encuentran las neuronas con pesos actualizados. De manera similar a la tasa de
aprendizaje, el tamaรฑo de esta zona disminuye gradualmente en cada iteraciรณn, lo que da
como resultado un conjunto mรกs pequeรฑo de neuronas vecinas.
En el enfoque convencional, los pesos de una red neuronal se ajustan despuรฉs de
presentar cada patrรณn de entrenamiento. Esto estรก en lรญnea con la regla de aprendizaje
que se ha utilizado ampliamente. Sin embargo, algunos investigadores, como Masters
(1993), sugieren un enfoque diferente donde se acumulan los incrementos calculados
para cada patrรณn de entrenamiento. Una vez presentados todos los patrones, los pesos se
actualizan en funciรณn del promedio de estos incrementos acumulados. Este mรฉtodo
alternativo tiene como objetivo evitar que el vector de peso cambie entre diferentes
patrones, acelerando asรญ el proceso de convergencia de la red.
El proceso general de aprendizaje se puede dividir en dos fases. La primera fase
se centra en la organizaciรณn de los vectores de peso en el mapa. Esto se logra utilizando
inicialmente una tasa de aprendizaje y un tamaรฑo de vecindario altos, que luego se
reducen gradualmente a medida que avanza el aprendizaje. En la segunda fase, el
objetivo es ajustar el mapa alineando los vectores de peso con mayor precisiรณn con los
vectores de entrenamiento. Esta fase suele ser mรกs larga e implica mantener la tasa de
aprendizaje constante en un valor pequeรฑo, como 0,01, y mantener un radio de vecindad
fijo de 1.
No existe una regla establecida para determinar el nรบmero exacto de iteraciones
necesarias para entrenar un modelo de forma eficaz. Sin embargo, el nรบmero de
iteraciones debe verse influenciado por el nรบmero de neuronas en el mapa; mรกs neuronas
generalmente requieren mรกs iteraciones. Por otro lado, el nรบmero de variables de entrada
no tiene un impacto significativo en las iteraciones necesarias. Si bien se considera
adecuado un nรบmero recomendado de 500 iteraciones por neurona, normalmente de 50
a 100 iteraciones son suficientes para la mayorรญa de los problemas, como sugiriรณ Kohonen
en 1990.
Las fases
La inicializaciรณn de los pesos
Pรกg. 142
Al crear un mapa autoorganizado por primera vez, es necesario asignar valores a
los pesos para comenzar el proceso de capacitaciรณn. Normalmente, hay poco debate sobre
este asunto y los pesos se inicializan con pequeรฑos valores aleatorios. Estos valores suelen
elegirse dentro de un rango, como entre -1 y 1 o 0 y 1, como sugiriรณ Kohonen en 1990. Sin
embargo, tambiรฉn es posible inicializar los pesos con valores nulos, o incluso mediante
una selecciรณn aleatoria de patrones de entrenamiento.
El entrenamiento de la red
Para modificar los vectores de peso de las neuronas en el conjunto de
entrenamiento, proporcionaremos una serie de recomendaciones prรกcticas sobre tres
parรกmetros de aprendizaje. Estos parรกmetros son cruciales para lograr resultados
รณptimos en el proceso de aprendizaje, pero sus valores ideales no pueden determinarse
de antemano debido a la singularidad de cada problema.
La medida de similitud
Anteriormente se analizaron los dos mรฉtodos mรกs comรบnmente empleados para
determinar la neurona ganadora durante la presentaciรณn de un patrรณn de entrada tanto
en la etapa operativa como en la de aprendizaje de la red. Sin embargo, es importante
considerar que la medida de similitud y la regla de aprendizaje utilizadas en el algoritmo
deben ser compatibles en tรฉrminos de mรฉtricas. Si no son compatibles, estarรญamos
empleando diferentes mรฉtricas para identificar la neurona ganadora y ajustar el vector de
peso asociado, lo que podrรญa generar problemas en el desarrollo del mapa.
La distancia euclidiana y la regla de aprendizaje mencionada en el pasaje son
compatibles en tรฉrminos de sus mรฉtricas, por lo que no hay ningรบn problema al respecto.
Sin embargo, cuando se trata de la correlaciรณn o producto escalar y la regla de
aprendizaje, no son compatibles porque la regla de aprendizaje se deriva de la mรฉtrica
euclidiana. La correlaciรณn solo se alinea con esta mรฉtrica cuando se utilizan vectores
normalizados, lo que da como resultado una coincidencia entre la distancia euclidiana y
la correlaciรณn. En consecuencia, si optamos por emplear la correlaciรณn como criterio de
similitud, es necesario utilizar vectores normalizados. En cambio, si optamos por la
distancia euclidiana, no se requiere normalizaciรณn. Para garantizar la coherencia, es
aconsejable tener el mismo rango de valores potenciales para las variables de entrada,
como -1 a 1 o 0 a 1.
Pรกg. 143
La tasa del aprendizaje
Como se indicรณ anteriormente, la tasa de aprendizaje (n) juega un papel crucial a
la hora de determinar cuรกnto se ajustan las ponderaciones cuando se presenta un patrรณn
de entrada. La tasa de aprendizaje se establece inicialmente entre 0 y 1, como 0,6, y
disminuye gradualmente a medida que aumenta el nรบmero de iteraciones (n). Esto
significa que a medida que el algoritmo de aprendizaje presenta repetidamente todo el
conjunto de patrones de aprendizaje, la tasa de aprendizaje disminuye a un valor
prรกcticamente insignificante, lo que resulta en modificaciones insignificantes en los
pesos. Normalmente, el ajuste de este parรกmetro se logra mediante la utilizaciรณn de una
de varias funciones.
Cuando 1 es igual a un valor de 0,1 o 0,2, y 2 representa un valor cercano al nรบmero
total de iteraciones de aprendizaje, que muchas veces se considera 10000. Cabe mencionar
que la elecciรณn entre utilizar una funciรณn u otra no tendrรก un impacto significativo en el
resultado final.
La zona de vecindad
Tambiรฉn denominada Zonaj*(n), es una funciรณn que determina si una neurona de
salida es parte o no de la vecindad que rodea a la neurona ganadora j* durante cada
iteraciรณn n. Esta vecindad es simรฉtrica y su centro es j*. Puede tener varias formas, como
circular, cuadrada, hexagonal o cualquier otro polรญgono regular.
Generalmente, a medida que avanza el aprendizaje, el valor de Zonaj*(n) tiende a
disminuir. Esta disminuciรณn estรก influenciada por un parรกmetro conocido como radio de
vecindad R(n), que indica la extensiรณn o tamaรฑo de la vecindad actual.
El tipo de paso es el tipo de funciรณn de vecindad mรกs simple y mรกs utilizado. En
este escenario, una neurona j se considera parte de la vecindad de la neurona ganadora j*
sรณlo si la distancia entre ellas es menor o igual al valor de R(n). Este tipo de funciรณn da
forma a los vecindarios con aristas distintas, como cuadrados, cรญrculos, hexรกgonos, etc.,
centrados alrededor del ganador, como se ilustra en la prรณxima figura (Palmer et al.,
Pรกg. 144
2002). En consecuencia, en cada iteraciรณn, solo se actualizan las neuronas que estรกn dentro
del rango de R(n) del ganador.
Ocasionalmente tambiรฉn se emplean funciones gaussianas o en forma de sombrero
mexicano, como se muestra en la siguiente figura (Palmer et al., 2002). Estas funciones
son continuas y diferenciables en cada punto, y en lugar de definir lรญmites distintos, crean
distintos niveles de membresรญa al definir vecindades decrecientes en el dominio espacial.
La funciรณn estilo sombrero mexicano se basa en la forma en que interactรบan ciertas
neuronas en la corteza, que se discutiรณ anteriormente en el documento. Esta funciรณn
implica que una neurona central envรญe seรฑales que excitan un รกrea pequeรฑa a su
alrededor. A medida que aumenta la distancia desde la neurona central, el nivel de
excitaciรณn disminuye hasta volverse realmente inhibidor. Cuando la distancia es bastante
grande, la neurona central emite una seรฑal excitadora dรฉbil. Por otro lado, la funciรณn paso
es una versiรณn simplificada de la funciรณn en forma de sombrero mexicano y define
discretamente el grupo de neuronas involucradas en el aprendizaje.
Pรกg. 145
La zona vecinal tiene una forma especรญfica, pero su tamaรฑo cambia con el tiempo.
Inicialmente, el radio se establece en un valor grande, por ejemplo, igual al diรกmetro total
del mapa. Esto se hace para garantizar que el mapa estรฉ ordenado globalmente. A medida
que avanza el tiempo, el radio, denominado R(n), disminuye continuamente hasta
alcanzar un valor final de 1. En este punto, sรณlo se actualizan los pesos de la neurona
ganadora y sus neuronas vecinas.
Aquรญ n simboliza la iteraciรณn y nR representa la cantidad de iteraciones para
alcanzar Rf.
Evaluaciรณn del ajuste del mapa
En los mapas autoorganizados, los vectores de peso finales estรกn influenciados por
varios factores, incluidos los pesos aleatorios iniciales, la tasa de aprendizaje, el tipo de
funciรณn de vecindad y la tasa de reducciรณn de estos parรกmetros. Es importante encontrar
un mapa รณptimo que represente con precisiรณn las relaciones entre los patrones de
entrenamiento. El mapa ideal es aquel en el que los vectores de peso coinciden
estrechamente con los vectores de entrenamiento. Esto se puede determinar calculando
el error de cuantificaciรณn promedio, que mide la diferencia entre cada vector de
entrenamiento y el vector de peso de su neurona ganadora. En nuestras simulaciones,
utilizamos la expresiรณn del error de cuantificaciรณn promedio como la media de la
distancia euclidiana entre el vector de entrenamiento y su vector de peso asociado.
La visualizaciรณn y funcionamiento del mapa
Despuรฉs de elegir el mapa mรกs adecuado, podemos pasar a la etapa de
visualizaciรณn examinando las coordenadas en el mapa donde se encuentra cada neurona
del patrรณn de entrenamiento. Esto nos permite transformar el espacio multidimensional
de entrada en un mapa bidimensional y, debido a la similitud entre neuronas vecinas,
Pรกg. 146
identificar grupos o categorรญas de datos ordenados por la red. Esto hace que el modelo de
mapa autoorganizado sea particularmente valioso para descubrir conexiones
previamente no identificadas entre conjuntos de datos.
Durante la fase operativa, la red posee la capacidad de funcionar como un
clasificador de patrones. Esto es evidente ya que la neurona de salida que se activa por
una entrada reciรฉn introducida simboliza la clase particular a la que pertenece la
informaciรณn de entrada. Ademรกs, ante otra entrada que se parece a una anterior, se activa
la misma neurona de salida o una que se encuentra muy prรณxima a ella. Este hecho se
puede atribuir a las similitudes entre las distintas clases, lo que garantiza que las
neuronas topolรณgicamente adyacentes respondan a entradas que comparten similitudes
fรญsicas.
El anรกlisis de la sensibilidad
Una de las principales crรญticas dirigidas a la utilizaciรณn de redes neuronales
artificiales gira en torno a la dificultad inherente a la comprensiรณn de las representaciones
internas generadas por la red en respuesta a un patrรณn de entrada determinado. A
diferencia de los modelos estadรญsticos tradicionales, no es inmediatamente evidente cรณmo
cada variable de entrada contribuye a la salida del modelo dentro de una red. Sin
embargo, es fundamental seรฑalar que la percepciรณn de las ANN como "cajas negras"
inescrutables no es del todo exacta.
El anรกlisis de sensibilidad implica evaluar el impacto de cambiar una variable de
entrada sobre otra. En el caso de un modelo SOM, este anรกlisis se realizรณ para determinar
cรณmo los pequeรฑos cambios en las variables de entrada afectan la salida del modelo. Para
este anรกlisis se utilizรณ el conjunto de datos Iris, un conjunto de datos ampliamente
utilizado en el reconocimiento de patrones, junto con otros conjuntos de datos bien
conocidos en el campo, como los utilizados para la discriminaciรณn del cรกncer. Si bien el
anรกlisis de sensibilidad se ha aplicado a las redes de retropropagaciรณn en estudios
anteriores, existe una investigaciรณn limitada sobre su aplicaciรณn a los modelos SOM.
De manera similar a la red de retropropagaciรณn, Hollmรฉn y Simula (1996)
realizaron un estudio en el que hicieron ajustes menores a una de las variables de entrada
mientras mantenรญan las otras variables en un valor promedio. Luego observaron cรณmo,
como resultado, la posiciรณn de la neurona ganadora en el mapa cambiaba. Este enfoque
Pรกg. 147
les permitiรณ determinar el nivel de correlaciรณn o significancia que cada variable de
entrada tenรญa en la salida de la red.
Las redes neuronales dinรกmicas
Las redes neuronales se pueden clasificar en estรกticas o dinรกmicas. Las redes
estรกticas calculan la salida directamente a partir de la entrada mediante conexiones
feedforward, mientras que las redes dinรกmicas consideran no solo la entrada actual sino
tambiรฉn las entradas y salidas o estados anteriores. Las redes dinรกmicas, como aquellas
con filtros adaptativos o redes Hopfield, tienen un elemento de memoria ya que su salida
estรก influenciada por entradas pasadas.
El entrenamiento de redes neuronales implica el uso de algoritmos que se basan
en gradientes, como el algoritmo de gradiente conjugado y de descenso mรกs
pronunciado, o jacobianos, como los algoritmos de Gauss-Newton y Levenberg-
Marquardt. El proceso de entrenamiento de redes estรกticas y dinรกmicas difiere en cรณmo
se calcula la matriz jacobiana o de gradiente. Las redes dinรกmicas incorporan bloques de
retardo que procesan entradas secuenciales y el orden de las entradas es significativo.
Pueden tener conexiones de retroalimentaciรณn como filtros adaptativos o incluir
conexiones de retroalimentaciรณn recurrentes conocidas como redes neuronales
recurrentes (RNN). Debido a sus capacidades de memoria, las redes dinรกmicas se pueden
entrenar para aprender patrones secuenciales o variables en el tiempo, lo que las hace
adecuadas para aplicaciones en diversos campos como sistemas de control, predicciรณn de
mercados financieros, ecualizaciรณn de canales de comunicaciรณn, clasificaciรณn, detecciรณn
de fallas y reconocimiento de voz.
Es posible entrenar redes dinรกmicas utilizando mรฉtodos estรกndar de optimizaciรณn
de redes estรกticas, pero los gradientes y jacobianos necesarios para estos mรฉtodos no se
pueden calcular utilizando el algoritmo de retropropagaciรณn estรกndar. En su lugar, se
utilizan algoritmos dinรกmicos de retropropagaciรณn como la retropropagaciรณn en el
tiempo (BPTT) y el aprendizaje recurrente en tiempo real (RTRL) para calcular los
gradientes. BPTT calcula la respuesta de la red para todos los puntos de tiempo y luego
calcula el gradiente desde el รบltimo punto de tiempo hacia atrรกs en el tiempo. Aunque es
eficaz para los cรกlculos de gradiente, BPTT resulta complicado de implementar en lรญnea,
ya que funciona en orden cronolรณgico inverso. Por otro lado, RTRL estima el gradiente
Pรกg. 148
simultรกneamente con la respuesta de la red comenzando en el primer punto de tiempo y
avanzando en el tiempo. Si bien RTRL requiere mรกs cรกlculos que BPTT para el cรกlculo del
gradiente, ofrece un marco conveniente para la implementaciรณn en lรญnea. Cuando se trata
de cรกlculos jacobianos, el algoritmo RTRL es generalmente mรกs eficiente que BPTT.
Su estructura
Las redes neuronales son capaces de tener dos tipos de conexiones: conexiones
feedforward, que son unidireccionales y solo van en una direcciรณn, y conexiones
feedforward combinadas con retroalimentaciรณn o conexiones recurrentes, que permiten
que la informaciรณn regrese dentro de la red.
Las redes estรกticas consisten exclusivamente en conexiones feedforward, mientras
que las redes dinรกmicas abarcan dos tipos distintos.
โ€ข Sรณlo con conexiones prealimentadas
โ€ข Con uniones directas y uniones inversas o recurrentes (RNN).
La innovaciรณn financiera
La industria financiera estรก experimentando una transformaciรณn significativa
debido a los avances de la tecnologรญa digital. Estos avances han revolucionado los
servicios de pago, ahorros, prรฉstamos e inversiones, asรญ como las entidades que ofrecen
estos servicios. Las empresas de tecnologรญa financiera y los gigantes tecnolรณgicos se han
convertido en competidores de los bancos tradicionales y otras instituciones establecidas
en diversos mercados.
Asimismo, la introducciรณn de monedas digitales promete transformar
completamente el concepto fundamental de dinero dentro del sistema financiero. Si bien,
es esencial examinar hasta quรฉ punto la tecnologรญa ha promovido realmente la inclusiรณn
financiera. Sin duda, las finanzas digitales han desempeรฑado un papel crucial para
ayudar a los hogares y las empresas a afrontar los desafรญos impuestos por la pandemia
de COVID-19 el aรฑo pasado. Ademรกs, ha brindado a los gobiernos nuevas vรญas para
brindar apoyo a quienes lo necesitan. En general, la tecnologรญa digital ha marcado el
comienzo de una nueva era en la industria financiera, revolucionando la forma en que se
prestan y acceden a los servicios financieros. No solo ha creado oportunidades para que
Pรกg. 149
nuevos actores ingresen al mercado, sino que tambiรฉn ha desempeรฑado un papel
fundamental para garantizar la resiliencia financiera en tiempos de crisis.
Los avances logrados hasta ahora han sido notablemente notables. Aun cuando,
para aprovechar eficazmente todo su potencial para mejorar la inclusiรณn financiera, es
crucial que la innovaciรณn del sector privado integre suficientes bienes pรบblicos. Esta
integraciรณn desempeรฑa un papel vital al influir en todas las facetas de la actividad
econรณmica. Los bienes pรบblicos sirven como pilares fundamentales sobre los que
prospera el concepto de inclusiรณn financiera.
Inclusiรณn
La inclusiรณn financiera se refiere a la disponibilidad generalizada de servicios
financieros asequibles y ha logrado avances significativos durante la รบltima dรฉcada, a
pesar de las fluctuaciones econรณmicas y la pandemia de COVID-19. Los datos del Banco
Mundial revelan que entre 2011 y 2017, 1.200 millones de adultos obtuvieron acceso a
cuentas comerciales, un progreso atribuido en gran medida al surgimiento de nuevas
tecnologรญas digitales. Un ejemplo destacado de esto es el dinero mรณvil, ejemplificado por
M-Pesa en Kenia y aplicaciones similares.
Estas plataformas permiten a los usuarios enviar y recibir pagos a travรฉs de
cualquier telรฉfono mรณvil. Con el tiempo, los proveedores de servicios han ampliado su
oferta para incluir microcrรฉditos, cuentas de ahorro y seguros contra diversos riesgos,
como malas cosechas. De hecho, en 2019, el 79% de los adultos en Kenia tenรญan una cuenta
mรณvil. Esta tendencia tambiรฉn estรก ganando terreno en รfrica, Medio Oriente y Amรฉrica
Latina. Mientras tanto, en la India, las iniciativas del gobierno para proporcionar
infraestructura bรกsica han tenido un profundo impacto.
El programa Aadhaar, que ofrece identidad digital (ID), ha otorgado a 1.300
millones de personas acceso a identificaciones confiables, facilitando la apertura de
cuentas bancarias y el acceso a otros servicios. Ademรกs, un nuevo sistema introducido a
travรฉs de esta iniciativa permite a los usuarios realizar pagos de bajo costo en tiempo real.
Segรบn estudios del Banco de Pagos Internacionales, el acceso a la banca en la India ha
aumentado del 10% de la poblaciรณn en 2008 a mรกs del 80% en la actualidad. Este rรกpido
progreso, logrado a travรฉs de la tecnologรญa, supera lo que los procesos de crecimiento
tradicionales habrรญan logrado en medio siglo.
Pรกg. 150
La pandemia de COVID-19 y las posteriores medidas de distanciamiento social
han puesto de relieve la importancia de los pagos digitales. Para muchas personas, las
plataformas digitales se volvieron esenciales para realizar pagos, comprar artรญculos
necesarios como cilindros de oxรญgeno y apoyar a las pequeรฑas empresas. Ademรกs, la
tecnologรญa desempeรฑรณ un papel crucial a la hora de cerrar brechas y facilitar
transferencias de dinero rรกpidas y asequibles a familiares. Solo en Filipinas, desde
mediados de marzo hasta finales de abril de 2020, se abrieron cuatro millones de cuentas
digitales.
Los gobiernos de todo el mundo han recurrido a nuevas infraestructuras digitales
para llegar a los hogares y a los trabajadores informales durante la pandemia. Perรบ, por
ejemplo, implementรณ el proyecto Mobile Wallet, integrando compaรฑรญas de telefonรญa mรณvil
y bancos para facilitar los pagos. Tailandia tambiรฉn adoptรณ el sistema de pago rรกpido
PromptPay, lo que demuestra la eficacia de este tipo de iniciativas. Estos ejemplos
contrastan marcadamente con las prรกcticas en economรญas avanzadas como Estados
Unidos, donde los pagos tradicionales con cheques por correo todavรญa prevalecen.
La innovaciรณn digital en el sector econรณmico
A pesar de que la pandemia dejรณ graves consecuencias para la economรญa, una
mayor desigualdad, hay un lado positivo en forma de un impulso en la adopciรณn de
tecnologรญas digitales. Estas tecnologรญas desempeรฑan un papel crucial en la promociรณn de
la inclusiรณn financiera y la creaciรณn de oportunidades econรณmicas. Si bien, es importante
seรฑalar que la tecnologรญa por sรญ sola no puede garantizar el รฉxito. Para comprender
plenamente el potencial de la tecnologรญa para facilitar la inclusiรณn digital y dar forma a
las polรญticas, es necesario examinar las condiciones econรณmicas fundamentales que
subyacen a estos avances.
Otro factor crucial que contribuye al desarrollo de innovaciones digitales es la
capacidad de almacenar y procesar grandes cantidades de datos digitales. Con el
aumento exponencial de la generaciรณn de datos, se ha hecho necesario contar con
capacidades eficientes de almacenamiento y procesamiento para gestionar y analizar esta
informaciรณn de forma eficaz. Esta capacidad permite a las empresas y organizaciones
extraer informaciรณn valiosa, tomar decisiones informadas y desarrollar soluciones
innovadoras basadas en el anรกlisis de estos datos.
Pรกg. 151
Asimismo, los continuos avances en tecnologรญas como la computaciรณn en la nube,
el aprendizaje automรกtico, la tecnologรญa de contabilidad, los sistemas distribuidos y las
tecnologรญas biomรฉtricas han mejorado aรบn mรกs el panorama de las innovaciones digitales.
La computaciรณn en la nube permite la implementaciรณn flexible y escalable de software y
servicios, mientras que los algoritmos de aprendizaje automรกtico permiten la
automatizaciรณn de procesos y la toma de decisiones inteligentes basadas en patrones de
datos. La tecnologรญa de contabilidad, comรบnmente conocida como blockchain,
proporciona registros de transacciones seguros y transparentes, lo que garantiza la
confianza y la responsabilidad en las interacciones digitales. Los sistemas distribuidos
permiten la gestiรณn descentralizada de recursos y redes, mientras que las tecnologรญas
biomรฉtricas ofrecen mรฉtodos de autenticaciรณn seguros y personalizados.
Estos avances en tecnologรญa aportan sus propias fortalezas y capacidades รบnicas al
รกmbito de las innovaciones digitales. En conjunto, mejoran la eficiencia, la seguridad, la
accesibilidad y la escalabilidad, fomentando asรญ el crecimiento y el รฉxito de las
innovaciones digitales en diversas industrias y sectores. Es a travรฉs de la convergencia de
estos factores que se puede aprovechar todo el potencial de las innovaciones digitales,
revolucionando la forma en que vivimos, trabajamos e interactuamos en la era digital.
El รฉxito y el progreso de las innovaciones digitales dependen en gran medida de
varios factores clave que desempeรฑan un papel vital a la hora de hacer posible esta
tecnologรญa. Uno de estos factores es el uso generalizado de telรฉfonos mรณviles e Internet,
ya que sirven como medio principal para conectar a personas, empresas y organizaciones
con proveedores de servicios financieros e informaciรณn. Estos avances tecnolรณgicos han
facilitado significativamente la comunicaciรณn, el acceso a los recursos y las transacciones
financieras, desempeรฑando asรญ un papel crucial en el crecimiento de las innovaciones
digitales.
Empero, el aspecto crucial detrรกs del รฉxito de estas innovaciones radica en la
capacidad de la ciudad-capa para recopilar informaciรณn y conectarse con los usuarios a
un precio increรญblemente asequible. Los expertos en el campo de la economรญa han
examinado a fondo los numerosos gastos especรญficos que se han reducido
significativamente debido a la llegada de las tecnologรญas digitales. Hay dos atributos
econรณmicos importantes asociados con la tecnologรญa digital que demuestran vรญvidamente
la inmensa influencia de estos factores, asรญ como los riesgos potenciales que implican.
Pรกg. 152
Para empezar, las plataformas digitales poseen la ventaja de ser altamente
adaptables y servir como convenientes diarios "intermedios" que facilitan la interacciรณn
entre varios grupos de usuarios. Tomemos, por ejemplo, el caso de un proveedor de
servicios de billetera digital como PayPal, que conecta de manera efectiva a los
comerciantes con los clientes que buscan soluciones de pago seguras. A medida que
aumenta el nรบmero de clientes que utilizan una opciรณn de pago especรญfica, resulta cada
vez mรกs beneficioso para los comerciantes ofrecerla y viceversa. Esto ejemplifica el
concepto de economรญas de escala en el รกmbito digital, lo que permite a los proveedores
experimentar un rรกpido crecimiento.
Como resultado, potencias tecnolรณgicas como Amazon y Alibaba, particularmente
en China, pueden servir como intermediarios que conectan a compradores y vendedores
en el mercado de bienes. Ademรกs, estas empresas tambiรฉn tienen la capacidad de
establecer conexiones entre comerciantes y proveedores, facilitando no sรณlo las
transacciones sino tambiรฉn brindando acceso al crรฉdito y otros servicios varios. La amplia
gama de servicios que ofrecen estos gigantes, que va mรกs allรก de los financieros, les
permite aprovechar sus ofertas financieras de manera efectiva. Esto sirve como un
excelente ejemplo de economรญas de alcance, en las que las empresas involucradas en
diversos sectores se ven favorecidas y pueden cosechar los beneficios de sus variadas
operaciones.
De igual forma, la utilizaciรณn de tecnologรญas digitales puede mejorar en gran
medida la evaluaciรณn del riesgo al aprovechar los datos secundarios obtenidos de las
actividades en lรญnea de las personas. Esto es especialmente ventajoso para diversos
servicios como prรฉstamos, inversiones y seguros. Las calificaciones crediticias que se
generan utilizando big data y algoritmos de aprendizaje automรกtico han demostrado ser
mรกs precisas que las evaluaciones tradicionales, especialmente para individuos o
pequeรฑas empresas con un historial crediticio formal limitado. Una investigaciรณn
realizada por el BIS revela que casi un tercio de los clientes de Mercado Libre, una
destacada empresa de prรฉstamos tecnolรณgicos en Argentina, no habrรญan podido obtener
crรฉdito de un banco tradicional. Ademรกs, las empresas a las que Mercado Libre les
concediรณ prรฉstamos demostraron mejores ventas y oferta de productos un aรฑo despuรฉs.
Los datos del Ant Group indican ademรกs que las grandes corporaciones impulsadas por
la tecnologรญa, al utilizar big data, pueden requerir menos garantรญas colaterales. Esto tiene
Pรกg. 153
el potencial de ampliar las oportunidades de crรฉdito a los prestatarios que carecen de
bienes raรญces u otros activos que puedan usarse como garantรญa, al tiempo que reduce la
vulnerabilidad de los prรฉstamos a las fluctuaciones en los precios de los activos.
La combinaciรณn de economรญas de escala y alcance, junto con capacidades
predictivas mejoradas, tiene el potencial de mejorar significativamente la inclusiรณn
financiera. En particular, el crรฉdito de los gigantes tecnolรณgicos ha experimentado un
aumento sin precedentes a nivel mundial durante la รบltima dรฉcada, alcanzando
aproximadamente 572 mil millones de dรณlares en 2019 (Frost, 2021). Estos prรฉstamos
desempeรฑan un papel crucial, especialmente en economรญas como China, Kenia e
Indonesia, donde han superado la importancia de los mercados crediticios tradicionales.
Ademรกs, su crecimiento se extiende mรกs allรก de estas regiones, con indicios de que
pueden haber aumentado incluso ligeramente durante la pandemia, cuando los gigantes
tecnolรณgicos intervinieron para facilitar la distribuciรณn de prรฉstamos a las empresas.
Aun cuando, como cualquier otro avance, los avances que permite el uso de big
data tambiรฉn tienen sus inconvenientes, en particular la inclinaciรณn hacia los monopolios.
En ciertas economรญas, los gigantes tecnolรณgicos dominantes que brindan servicios de
pagos y prรฉstamos se han vuelto tan cruciales para el sistema que son esencialmente
"demasiado grandes para quebrar". Esta tendencia a absorber competidores puede
obstaculizar la innovaciรณn. Ademรกs, existe un riesgo significativo de que se produzca un
uso indebido de los datos y violaciones importantes que infrinjan la privacidad de las
personas. Es fundamental implementar polรญticas pรบblicas inteligentes que puedan
mitigar eficazmente estos riesgos sin limitar innecesariamente el potencial de las
tecnologรญas digitales.
Pรกg. 154
Conclusiones
Para navegar y prosperar eficazmente en este mundo en rรกpida evoluciรณn, las
personas y los รณrganos de gobierno deben adoptar un enfoque proactivo. Es fundamental
comprender cรณmo aprovechar el poder de la innovaciรณn digital para fomentar la
inclusiรณn y abordar simultรกneamente los riesgos potenciales asociados con la estabilidad
financiera y los derechos de los consumidores. Para lograrlo, es evidente que se deben
implementar cinco categorรญas distintas de polรญticas.
โ€ข Crear infraestructuras digitales inclusivas es crucial para avanzar hacia cuentas y
servicios mรกs avanzados. Iniciativas como Aadhaar en India sirven como punto de
partida para este desarrollo. Es esencial establecer sistemas rรกpidos de pagos
minoristas que se basen en una infraestructura pรบblica abierta para garantizar la
igualdad de oportunidades para todos. Ejemplos de tales sistemas incluyen el
pago rรกpido en Rusia, CoDi en Mรฉxico y PIX en Brasil, que permiten pagos
digitales instantรกneos con un costo mรญnimo o sin costo para individuos, empresas
o gobiernos. Ademรกs, las monedas digitales de los bancos centrales, que
actualmente se estรกn probando en China y otros paรญses y que ya estรกn en
circulaciรณn en las Bahamas, tambiรฉn pueden servir como plataforma compartida
para diversos servicios ofrecidos por proveedores privados.
โ€ข Para fomentar la competencia en el mundo digital, es crucial establecer reglas
comunes que incentiven el juego limpio. Numerosos paรญses han reconocido la
necesidad de desafiar los monopolios digitales y han implementado regulaciones
que permiten a los usuarios transferir sus datos entre varias plataformas. Este
concepto, conocido como interoperabilidad, permite que diferentes proveedores
se conecten entre sรญ sin problemas, ampliando asรญ las opciones de los consumidores
y fomentando una competencia sana. Al igual que los protocolos fundamentales
de Internet que facilitan una comunicaciรณn fluida, estos estรกndares comunes sirven
como un bien pรบblico vital que es indispensable para el crecimiento y avance de
los mercados privados.
โ€ข En la actual era digital, puede ser necesario revisar y actualizar las polรญticas de
competencia. Es posible que los mรฉtodos tradicionales para promover la
competencia y prevenir los monopolios ya no sean eficaces. Esto se debe a que las
Pรกg. 155
prรกcticas monopolรญsticas ahora pueden adoptar la forma de control de datos, en
lugar de รบnicamente precios elevados. Sin regulaciones adecuadas, podrรญan surgir
nuevas barreras de entrada al mercado y prรกcticas anticompetitivas que
obstaculicen la competencia leal. El creciente escrutinio de las fusiones y
adquisiciones, asรญ como el surgimiento de "guardianes" digitales, sugiere que se
requieren medidas innovadoras y con visiรณn de futuro para garantizar la
competitividad y la disputabilidad de los mercados financieros digitales.
โ€ข Para mejorar la privacidad de los datos, es necesario abordar la falta de claridad
en las leyes existentes sobre los datos generados por los servicios digitales.
Actualmente, las empresas de tecnologรญa tienen un control significativo sobre los
datos confidenciales, lo que no es ideal. Para rectificar esto, los usuarios deberรญan
tener mรกs control y autonomรญa sobre sus datos. La Uniรณn Europea ha
implementado leyes de privacidad que pueden servir como modelo รบtil, asรญ como
el proyecto India Stack, que ha implementado prรกcticas efectivas para controlar los
datos de los usuarios. Estudios recientes indican que existen diferencias en la
disposiciรณn a compartir datos en funciรณn de factores como el gรฉnero y la edad. Por
ejemplo, los hombres suelen estar mรกs dispuestos que las mujeres a compartir sus
datos a cambio de mejores servicios financieros, y los jรณvenes estรกn mรกs inclinados
a compartir sus datos en comparaciรณn con los adultos. Dada la diversidad de
preferencias y perspectivas en la sociedad, serรก un desafรญo establecer reglas
universalmente aceptables para el uso de datos. Sin embargo, es probable que sean
necesarias leyes para regular y proteger la privacidad de los datos.
โ€ข Coordinaciรณn del trabajo entre diversos รณrganos, asรญ las tecnologรญas digitales en las
finanzas conciernen no sรณlo bancos centrales y reguladores financieros, sino
tambiรฉn a las autoridades que brindan competencia y seguridad de los datos;
ambos las partes deben trabajar juntas. Tambiรฉn es muy probable que la polรญtica
del paรญs influya en usuarios de otros paรญses.
Con definiciones claras y precisas de bienes pรบblicos y una cooperaciรณn efectiva
de las autoridades, la utilizaciรณn de la tecnologรญa digital tiene el potencial de mejorar
significativamente la inclusiรณn dentro de nuestros sistemas, particularmente en el sector
financiero, al llegar a quienes estรกn econรณmicamente desfavorecidos. La adopciรณn
generalizada de tecnologรญa tiene la capacidad no solo de mejorar la eficiencia general
Pรกg. 156
dentro de las sociedades, sino tambiรฉn de fomentar una mayor igualdad y mejorar la
preparaciรณn para la prรณxima era digital. Es imperativo que la innovaciรณn estรฉ diseรฑada
para beneficiar a todos los individuos, asegurando una distribuciรณn equitativa de sus
ventajas.
Pรกg. 157
Bibliografรญa
Aroca, P. R., Garcรญa, C. L., & Lรณpez, J. J. G. (2009). Estadรญstica descriptiva e inferencial.
Revista el auge de la estadรญstica en el siglo XX, 22, 165-176.
Banco de Espaรฑa. (2020). Plan Estratรฉgico 2024. Eurosistema.
Banco de Pagos Internacionales. (2015). Orientaciones sobre riesgo de crรฉdito y
contabilidad de pรฉrdidas crediticias esperadas. Comitรฉ de Supervisiรณn Bancaria de
Basilea.
Basogain Olabe, X. (s.f.). Redes neuronales artificiales y sus aplicaciones.
Bhattacharyya, S., Jha, S., Tharakunnel, K., & Westland, J. C. (2011). Data mining for credit
card fraud: A comparative study. Decision Support Systems, 50(3), 602-613.
Camino, J. R., y de Garcillรกn Lรณpez-Rua, M. (2014). Marketing sectorial. Principios y
aplicaciones. Esic Editorial.
Chui, M., Manyika, J., & Miremadi, M. (2015). Four fundamentals of workplace
automation. McKinsey Quarterly, 29(3), 1-9
Elvery, J. (2019). Changes in the Occupational Structure of the United States: 1860 to 2015.
Economic Commentary, (2019-09).
Francรฉs Monedero, T. (2020). Impacto del machine learning en el sistema financiero [Trabajo
final de grado]. Comillas, Universidad Pontificia.
Fernรกndez, A. (2019). Inteligencia artificial en los servicios financieros. Boletรญn Econรณmico,
(JUN).
Frost, J., Gambacorta, L., y Song Shin, H. (2021). De la innovaciรณn financiera a la
inclusiรณn. Finanzas y desarrollo, 58(1), 14-18.
Heros Cรกrdenas, L. F. (2022). Aprendizaje automรกtico para el desarrollo de procesos en las
instituciones financieras (Bachelor's thesis, Benemรฉrita Universidad Autรณnoma de
Puebla).
Pรกg. 158
Hollmรฉn, J. y Simula, O. (1996). Prediction models and sensitivity analysis of industrial
process parameters by using the self-organizing map. Proceedings of IEEE Nordic
Signal Processing Symposium (NORSIG'96), 79-82.
IBM Documentation. (2021, diciembre 7). Ibm.com. https://www.ibm.com/docs/es/spss-
statistics/beta?topic=types-time-plots
Kohonen, T. (1982a). Self-organized formation of topologically correct feature maps.
Biological Cybernetics, 43, 59-69.
Kohonen, T. (1982b). Analysis of a simple self-organizing process. Biological Cybernetics,
44, 135-140.
Kohonen, T. (1989). Self-organization and associative Springer-Verlag.
Kohonen, T. (1990). The self-organ 1480.
Masters, T. (1993). Practical neural networks recipes in C++. London: Academic Press.
Marinai, S., & Fujisawa, H. (Eds.). (2007). Machine learning in document analysis and
recognition. Springer, 90, 1-20.
Martรญnez, F. (2010). Robots financieros, los nuevos seรฑores del corto plazo. Recuperado
el 22 de enero de 2020, de
https://cincodias.elpais.com/cincodias/2010/11/20/mercados/1290218503_850215.h
tml
McCarthy, J. (1960). Programs with common sense. RLE and MIT computation center.
Niederhoffer, V., & Osborne, M. F. M. (1966). Market making and reversal on the stock
exchange. Journal of the American Statistical Association, 61(316), 897-916.
Ortega, C. (2021, junio 29). Grรกfica de dispersiรณn. Quรฉ es y cuรกles son sus caracterรญsticas.
Tudashboard.com. https://tudashboard.com/grafica-de-dispersion/
Palmer, A., Montaรฑo, J.J. y Jimรฉnez, R. (2002). Tutorial sobre Redes Neuronales
Artificiales: Los Mapas Autoorganizados de Kohonen. REVISTA ELECTRร“NICA
DE PSICOLOGรA, 6(1).
Pรกg. 159
Ruiz, F. (2020, agosto 7). 5 usos del aprendizaje automรกtico en los servicios financieros. Finerio
Connect. https://blog.finerioconnect.com/usos-del-aprendizaje-automatico-en-
servicios-financieros/
Sosa Sierra, M. D., (2007). Inteligencia artificial en la gestiรณn financiera empresarial.
Pensamiento & Gestiรณn, (23), 153-186.
United Consulting Group. (2018). Artificial Intelligence Effects on the Financial Services
Sector.
Vercellis, C. (2011). Business intelligence: data mining and optimization for decision making.
John Wiley & Sons.
Vorobioff, j., Cerrotta, S., Eneas Morel, N., y Amadio, A. (2022). Inteligencia Artificial y
Redes Neuronales fundamentos, ejercicios y aplicaciones con Python y Matlab. edUTecNe
โ€“ Editorial de la Universidad Tecnolรณgica Nacional.
Wang, J., Wang, J. (2017). Forecasting stochastic neural network based on financial
empirical mode decomposition. Neural Networks, 90, 8-20
Pรกg. 160
Pรกg. 161