“Descubriendo Clustering con K-Means en Python”

Patrizia Castagno
4 min readDec 2, 2023

Esta sección es un ejemplo sencillo de la sección: Aprendizaje no supervisado. Recomiendo leer primero la teoría antes de pasar a esta sección.

Cuando tienes datos sin etiquetas, puedes utilizar el clustering de K-Means, una forma de aprendizaje no supervisado (es decir, datos sin categorías o grupos definidos). El objetivo de este algoritmo es identificar grupos en los datos; K es una variable que indica cuántos grupos hay. El programa utiliza atributos proporcionados para asignar de manera iterativa cada punto de datos a uno de los K grupos.

Basándose en la similitud de sus características, los puntos de datos se agrupan. La técnica de clustering de K-Means produce los siguientes resultados: Las etiquetas para los datos de entrenamiento se pueden aplicar a nuevos datos utilizando los centroides de los K grupos (cada punto de datos se asigna a un solo grupo).

Ahora hablemos sobre cómo funciona el algoritmo KMeans. El objetivo es simplificar la explicación tanto como sea posible.

  1. Import Library
import numpys np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns

2. Importación del conjunto de datos

Puedes descargar el conjunto de datos haciendo clic aquí.

data_set = pd.read_csv('Mall_Customers.csv',sep = ";")
data_set
Image by the Author
data_set.info()
Image by the Author
data_set.describe()
Image by the Author
data_set.isnull().sum()
Imagen by the Author

No hay valores nulos. Se deben eliminar los datos duplicados y utilizar únicamente las variables “Spending_Score” e “income” para una visualización más sencilla, las cuales se denominarán como X.

data_set.drop_duplicates(inplace=True)…

--

--

Patrizia Castagno

Physics and Data Science.Eagerly share insights and learn collaboratively in this growth-focused space.LinkedIn:www.linkedin.com/in/patrizia-castagno-diserafino