analisi di clustering è un metodo di esame dei dati assegnando i dati ai gruppi precedentemente definiti . L’ appartenenza a ciascun gruppo si basa su analogie di caratteristiche . Ogni membro di un cluster dovrebbe avere più in comune con gli altri membri dello stesso gruppo che con i membri di altri cluster . Le variabili con cui i dati vengono ordinati possono essere numerici , binari , categorico , o di qualsiasi altro tipo . Come i dati vengono ordinati potrebbe essere leggermente diversa per diversi tipi di variables.Things che vi serve
Calculator
Mostra Altre istruzioni
dati numerici
1
Organizza l’ dati . Utilizzare un istogramma se una sola variabile è coinvolto , o rappresentare graficamente i punti su un piano cartesiano se sono coinvolte due variabili . Se i dati contengono più di due variabili , organizzare in tabelle o matrici .
2
dividere il numero di elementi di dati per il numero di cluster desiderati per ottenere il numero medio di componenti per cluster .
3
Gruppo i dati in cluster contenenti il numero medio di componenti . Se esiste un resto , distribuire ciascun punto rimanente di dati in un cluster diverso , in modo che nessun gruppo supera un’attività in formato da più di una .
4
Trova il centroide di ogni cluster aggiungendo i valori di ogni membro e dividendo per il numero dei membri del cluster . Questo vi darà il valore medio per il cluster .
5
Trovare la distanza di ciascun membro di ogni cluster dal suo baricentro . Se tutti i punti di dati sono più vicini al baricentro di un altro cluster, quindi spostarlo verso l’altro cluster.
6
Contare il numero di punti in ogni cluster . Se i cluster contengono più rispetto alla media , spostare i membri eccesso lontane dal centroide al cluster limitrofo più vicino a loro .
7
Ripetere i passaggi da quattro a sei fino a quando non è necessaria alcuna ulteriore ridistribuzione .
Binary o dati categoriali
8
Trovare il numero di membri desiderati per cluster dividendo il numero totale di elementi di dati per il numero desiderato di gruppi.
9
Mettere il numero appropriato di elementi di dati in gruppi aventi caratteristiche simili .
10
Trova l’ ( modale ), valore più comune per ogni variabile per i dati all’interno di ogni cluster. Il baricentro del cluster avrà il valore più comune per ogni variabile .
11
dividere il numero di variabili ogni elemento ha in comune con il loro baricentro , per il numero totale di variabili . Questo rapporto indica il grado in cui il punto dati assomiglia al resto del cluster
12
Spostare tutti i punti di dati con rapporti variabili meno di 0,5 ad un altro cluster con una maggiore somiglianza a quel punto. Ridistribuire i punti necessari per mantenere uguali le dimensioni dei cluster . Ripetere i passaggi da tre a cinque finché non sono necessarie ulteriori mosse.