Si potrebbe spesso desiderare di partizionare i dati in gruppi significativi sulla base di un certo grado di “vicinanza “. Tuttavia, decidere come andare in realtà circa il partizionamento è molto soggettiva e quindi essere criticata da altri ricercatori . La soluzione a questo problema è k-means clustering. K-means cluster è un algoritmo che suddivide automaticamente i dati per voi . Si tratta di una forma di apprendimento automatico che dà un partizionamento ottimale dei dati secondo un insieme di vincoli. MATLAB offre una funzione di clustering k- significa che si può facilmente applicare al vostro set di dati . Istruzioni
1
Leggere i dati in MATLAB come matrice . Individuare il file di dati sul computer e ricordare il nome del file ( ad esempio ” datafile.dat ” ) . Utilizzare il comando ” [ dat , Vars, casi ] = tblread (filename )” dove ” nomefile ” è il nome del file contenente i propri dati , come ad esempio ” datafile.dat “. Premere invio e la variabile ” che” sarà una matrice di dati contenente i dati .
2
Decidere il numero di mezzi per l’algoritmo di clustering k-means . Il numero di mezzi che scegliete sarà esattamente uguale al numero di gruppi di prodotto . Utilizzare le proprietà dei vostri dati e il problema a portata di mano per decidere quanti gruppi si desidera partizionare i dati in .
3
Decidere come l’ algoritmo di clustering k-means dovrebbe calcolare la distanza tra punti . Ci sono due metodi comuni per il calcolo della distanza di questo algoritmo : euclidee e di correlazione . Euclideo guarda solo alla distanza ” fisica” tra i punti se li graficamente su un piano cartesiano . Distanza Correlational tiene conto della variazione dei dati e può essere più adatto quando si tratta di dati che ha una distribuzione nota ( come la distribuzione normale) .
4
Eseguire il k- means algoritmo . Utilizzare il comando ” ind = Kmeans ( dat , g , ‘distanza’ )” dove ” g ” è un numero che rappresenta il numero di cluster che si desidera e ” distanza” è il tipo di distanza che si desidera l’algoritmo di clustering k- mezzi da utilizzare : ” sqEuclidean ” per la distanza euclidea e la ” correlazione” per la distanza di correlazione
.