Inteligencia Artificial: machine learning.
Un algoritmo de machine learning es un subconjunto de una categoría más amplia de algoritmos conocida como algoritmo de Inteligencia Artificial (IA).
El propósito de un algoritmo de IA es ser capaz de aprender algo basándose en datos, y hacerlo de una manera que tenga sentido.
Los algoritmos machine learning (ML) están diseñados para hacer predicciones o determinar el mejor curso de acción dados algunos datos de entrada.
El programa Máster en Inteligencia Artificial CEUPE está diseñado para proporcionar a los estudiantes una formación completa en los fundamentos de la inteligencia artificial y sus avances más recientes.
¿Qué es un algoritmo machine learning?
El campo machine learning estudia la construcción y el estudio de sistemas que pueden aprender de los datos.
El aprendizaje se consigue mediante la construcción de algoritmos que toman datos y emiten una respuesta o predicción adecuada.
Estos algoritmos se inspiran en modelos de aprendizaje humano, pero, a diferencia de los humanos, los algoritmos machine learning no necesitan un profesor que etiquete sus entradas.
Los algoritmos de aprendizaje automático son capaces de extraer automáticamente patrones de los datos sin necesidad de programarlos con reglas o etiquetas.
El desarrollo del aprendizaje automático ha dado lugar a muchas aplicaciones interesantes, como el reconocimiento de imágenes y el reconocimiento del habla.
Aprendizaje supervisado machine learning
El aprendizaje supervisado es una técnica de machine learning en la que el algoritmo construye una función que asigna una entrada a una salida basándose en pares de entrada-salida de ejemplo.
Las técnicas de aprendizaje supervisado se basan en la suposición de que existe una función que puede asignar las entradas a las salidas deseadas, y que estas entradas y salidas están disponibles.
En el aprendizaje supervisado, cada entrada se empareja con una salida apropiada, y este mapeo se aprende a partir de los datos proporcionados.
Existen dos estrategias generales para el aprendizaje supervisado:
- Los enfoques inductivos aprenden a partir de datos observacionales (como la clasificación).
- Los deductivos lo hacen a partir de datos experimentales (como la aproximación de funciones).
Estos dos enfoques comparten muchas de sus estrategias algorítmicas subyacentes, pero difieren en la naturaleza de la supervisión proporcionada:
Los enfoques inductivos utilizan el resultado de un ejemplo de entrenamiento para predecir el resultado de nuevas instancias, mientras que los enfoques deductivos utilizan el conocimiento existente para guiar su entrenamiento.
Aprendizaje no supervisado machine learning
El aprendizaje automático no supervisado (UML) es un marco de aprendizaje automático en el que los algoritmos buscan estructuras o patrones ocultos en los datos sin ninguna guía de etiquetas o retroalimentación del usuario.
El aprendizaje automático no supervisado es una clase de métodos de machine learning que descubren patrones en los datos, sin que se les dé ninguna etiqueta definida por el ser humano, como «esto es un perro» o «esto es otra cosa».
Se ha convertido en una herramienta importante en el campo de Data mining, especialmente para descubrir correlaciones y otras informaciones en grandes conjuntos de datos.
En muchos casos, el aprendizaje automático no supervisado es preferible al supervisado, ya que no es necesario etiquetar los datos de entrada.
Filtrado colaborativo en machine learning
El filtrado colaborativo es una forma de reducir el tamaño de la muestra que se utiliza normalmente al aplicar algoritmos machine learning.
Este método funciona analizando las preferencias explícitas e implícitas de los individuos que han utilizado el servicio en el pasado, así como su preferencia hacia artículos similares.
Los creadores del algoritmo pueden entonces adaptar su plantilla para que se adapte mejor a las características particulares de este grupo específico.
El filtrado colaborativo es un algoritmo que hace uso de datos humanos (colaborativa) a la hora de realizar el filtrado de información.
El programa reduce el tamaño de la muestra (el conjunto de datos que analiza) a través de las sugerencias proporcionadas por los usuarios.
También se puede utilizar la inteligencia colectiva, es decir, la toma de decisiones colectivamente en lugar de individualmente, con el fin de dirigir y guiar el proceso de toma de decisiones.
La inteligencia colectiva se basa en el hecho que hay personas muy inteligentes en el grupo y que si se juntan sus ideas se pueden obtener resultados mucho mejores.
Problemas de clasificación y regresión
Ambos implican la búsqueda de patrones en grandes conjuntos de datos, pero tienen diferentes aplicaciones y principios subyacentes.
Los problemas de clasificación implican el uso de datos históricos para clasificar instancias no vistas en una de las muchas categorías posibles.
En el machine learning podemos encontrarnos con una serie de problemas de clasificación.
Se trata de problemas en los que queremos definir una clase basada en algunas características de un objeto.
Podría describirse como que los objetos pertenecen a una determinada categoría o no.
El enfoque más utilizado para resolver este problema se llama máquinas de vectores de apoyo (SVM).
Los problemas de regresión del machine learning o son un subconjunto de los problemas de aprendizaje automático supervisado.
En este contexto, el término regresión se refiere a la predicción de un valor continuo de salida.
El ejemplo más común es la predicción de futuras tendencias financieras, económicas o sociales.
Un modelo de regresión está representado por una ecuación que toma las variables independientes como entrada y produce la variable dependiente como salida.
El análisis de regresión, nos dará una ecuación que podemos utilizar en el futuro para predecir el movimiento basado en nuestras lecturas actuales o características.
Algoritmos de clasificación no supervisada machine learning
La clasificación no supervisada es un tipo de machine learning en el que no hay etiquetas de entrada sobre las clasificaciones para que el algoritmo aprenda de ellas.
Los algoritmos de clasificación no supervisada no reciben ninguna etiqueta cuando se entrenan.
En cambio, se les proporcionan datos de entrenamiento no etiquetados y deben agrupar ejemplos similares.
Por ejemplo, si se le da a un algoritmo de clasificación no supervisado una colección de fotos sin decirle si alguna de las fotos muestra planetas o estrellas, intentará encontrar patrones en los datos y agruparlos en conjuntos más grandes basados en esos patrones mientras intenta minimizar las diferencias entre los conjuntos.
Con el tiempo, estos algoritmos clasificarán los datos sin etiquetar y encontrarán grupos en su conjunto de entrenamiento que parecen compartir algunas características.
Algoritmo de clustering
El algoritmo de clustering es un tipo de algoritmo de aprendizaje automático que clasifica los datos.
También conocida como aproximación de clustering, esta técnica divide los datos en grupos basados en la similitud entre los elementos.
Como resultado, se genera un conjunto de grupos distintos.
Serie de algoritmos que buscan agrupar objetos con características similares entre sí.
El cluster es un conjunto de objetos (tiempos) agrupados.
La estrategia para obtener este resultado es la siguiente:
1 – Seleccione los objetos más parecidos entre sí.
2 – Agrupar los objetos seleccionados en grupos, según su similitud.
3 – Repite el proceso hasta que no se puedan agrupar más objetos en otro grupo.
El clúster se puede visualizar a través del diagrama de árbol de clúster, que representa los objetos y la forma en que se agrupan.
Algoritmo de detección de anomalías
La detección de anomalías es la identificación de elementos, eventos u observaciones que no se ajustan a un patrón esperado o a otros elementos de un conjunto de datos.
El concepto se utiliza a menudo en la ciencia y la ingeniería para detectar fallos, como piezas de máquinas que fallan bajo tensión (utilizando sensores de vibración), o errores de software.
También puede utilizarse en la detección de fraudes y en la minería de datos en general.
Los sistemas de detección de anomalías emplean métodos de aprendizaje supervisado para construir modelos de comportamientos normales a partir de datos de entrenamiento, que luego se utilizan para identificar comportamientos anormales cuando se observan nuevos datos.
Algoritmos de sistemas de recomendación
Los algoritmos de recomendación basados en el aprendizaje son cada vez más populares en la investigación de los sistemas de recomendación, ya que han demostrado su eficacia en muchas aplicaciones reales.
La idea en la que se basan es sencilla: aprenden un modelo de las preferencias de los usuarios y, a continuación, utilizan ese modelo para hacer recomendaciones a nuevos usuarios.
Aunque hay varios algoritmos utilizados en la literatura de los sistemas de recomendación, los más populares se basan en técnicas de aprendizaje por rango.
Estos optimizan una función de clasificación, aprendiendo las preferencias de los usuarios a partir de sus datos de clics (es decir, los artículos que realmente eligen cuando se les presenta un conjunto de recomendaciones).
Aquí dos de los algoritmos más utilizados:
- La Asignación de Dirichlet Latente (LDA) y sus variantes; y
- La Factorización Matricial (MF), que suele implementarse como Factorización Matricial No Negativa (NMF) o Mínimos Cuadrados Alternos (ALS).
Tanto el LDA como la MF suelen requerir que el historial de valoraciones de los usuarios esté previamente codificado antes de utilizarlo para la recomendación.
Conclusión: Aprendizaje automático e inteligencia artificial
Un algoritmo de aprendizaje automático se encarga de identificar patrones en los datos y utilizarlos para predecir eventos futuros.
En términos sencillos, es el proceso de entrenar a un ordenador para que aprenda cosas por sí mismo, en lugar de limitarse a ejecutar un conjunto de instrucciones preprogramadas.