Search Header Logo
Classification vs. Clustering

Classification vs. Clustering

Assessment

Presentation

Computers

9th Grade

Practice Problem

Easy

Created by

Logiscool Timisoara

Used 5+ times

FREE Resource

12 Slides • 0 Questions

1

media

Classification
vs.
Clustering

2

Clasificarea vs. Gruparea
Classification VS. Clustering

​Classification

​Clustering

  • ​​Clasificarea este o metodă de învățare supravegheată.

  • Scopul este de a atribui etichete punctelor de date pe baza unui set de antrenament.

  • Input: Set de date etichetate (cu features)

  • Output: Etichete pentru punctele de date necunoscute.

  • Clustering-ul este o metodă de învățare nesupravegheată.

  • Scopul este de a grupa datele pe baza similarităților dintre ele.

  • Input: Set de date fără etichete.

  • Output: Grupuri (clustere) de puncte similare.

3

Clasificarea vs. Gruparea
Classification VS. Clustering

​Classification

Clustering

Latitude (feature)

Longitude (feature)

Etichetă (Label)

45.7569

21.2286

Central

45.7570

21.2288

Central

45.8021

21.2578

Suburban

45.7220

21.2156

Suburban

45.7050

21.2000

Noise

Latitude (feature)

Longitude (feature)

45.7569

21.2286

45.7570

21.2288

45.8021

21.2578

45.7220

21.2156

45.7050

21.2000

​Classification

​Clustering

Ce este important: Fiecare rând are o etichetă (label) prestabilită.


Precondiție: Etichetele („Central,” „Suburban,” „Noise”) trebuie să existe deja în date.

Ce este important: Nu există etichete; doar caracteristicile (features) sunt necesare.


Precondiție: Doar caracteristicile (features)

4

Clasificarea vs. Gruparea
Classification VS. Clustering

​Classification

Clustering

Latitude (feature)

Longitude (feature)

Etichetă (Label)

45.7569

21.2286

Central

45.7570

21.2288

Central

45.8021

21.2578

Suburban

45.7220

21.2156

Suburban

45.7050

21.2000

Noise

Latitude (feature)

Longitude (feature)

45.7569

21.2286

45.7570

21.2288

45.8021

21.2578

45.7220

21.2156

45.7050

21.2000

​Classification

​Clustering

Algoritmi:

  1. k-Nearest Neighbors (kNN)

  2. Decision Trees

  3. Support Vector Machines (SVM)

Algoritmi:

  1. k-Means Clustering

  2. Hierarchical Clustering

  3. DBSCAN

5

media
media
media

Clasificarea sportivilor în „Fotbal” sau „Baschet” folosind înălțimea, greutatea și viteza lor.

Date de antrenament: caracteristici precum înălțime, greutate, viteză și eticheta sportului (0 -> Fotbal, 1 -> Baschet).

kNN

Recomandarea tipului de pantof în funcție de vreme și locație:

„Raining Outside”: Da/Nu.

„Location”: Locul în care se află utilizatorul (ex. indoors, outdoors).

„Shoe Type”: Tipul de pantof recomandat (ex. sneakers, boots).

Decision Tree

Clasificarea fructelor și legumelor folosind Support Vector Machines (SVM)

Un măr (rotund, roșu) este clasificat ca fruct, iar un morcov (lung, portocaliu) este clasificat ca legumă, pe baza liniei de separare.

SVN

​Classification

6

media
media
media

Gruparea supereroilor în funcție de abilități folosind k-Means Clustering

Cluster 1: Supereroi zburători și puternici.

Cluster 2: Supereroi rapizi dar fără abilitate de zbor.

Cluster 3: Supereroi cu abilități echilibrate.

k-means

Organizarea bolilor și medicamentelor pe baza relațiilor lor folosind Hierarchical Clustering Analysis (HCA).
Boală: Virus Verde, Virus Roșu.

Medicament: Ex. Medicina Verde, Medicina Roșie.

Caracteristici: Gradul de periculozitate și rata de răspândire.

Hierarchical Cluster Analysis

Gruparea coffee shop-urilor din Timișoara folosind DBSCAN.
Cluster 1: Coffee shop-uri din Unirii Square.

Cluster 2: Coffee shop-uri din Iulius Town.
Cluster 3: Coffee shop-uri din Punctele Cardinale

Noise Points: „Calea Lugojului Coffee.”

DBSCAN

​Clustering

7

media

Atribuie o etichetă unui punct de date necunoscut (noul jucator din camera) pe baza celor mai apropiați k vecini dintr-un dataset.

Cum funcționează:

Pasul 1: Se calculează distanțele dintre punctul necunoscut și toate punctele din setul de antrenament.

Pasul 2: Se selectează cei mai apropiați k vecini.

Pasul 3: Se determină clasa majoritară dintre cei k vecini și se atribuie punctului necunoscut.

k-Nearest Neighbors (kNN)

media

8

media

Creează un arbore care ia decizii prin împărțirea datelor în funcție de caracteristici importante.

Pasul 1: Se decide ce caracteristică (feature) să fie evaluată mai întâi, pe baza importanței
Pasul 2: Setul de date este împărțit în subseturi pe baza valorilor caracteristicii selectate (Raining Outside” → Da/Nu.)
Pasul 3: Algoritmul selectează următoarea caracteristică pentru divizare
Pasul 4: O frunză este creată atunci când toate punctele dintr-un subset aparțin aceleași clase
Pasul 5: Punctele necunoscute sunt clasificate parcurgând arborele de la rădăcină la frunză

Decision Tree

media
media

9

media

Descriere:
Creează o linie sau un plan care separă datele în clase distincte, maximizând distanța între clase.

Exemplu:
Clasificarea fructelor și legumelor folosind caracteristici precum forma și culoarea.


Pasul 1: SVM încearcă să deseneze o linie care să le separe perfect categoriile.
Pasul 2: Punctele noi sunt clasificate pe baza poziției lor față de linia de separare.

SVN

media
media

10

media
media

Descriere:
Împarte datele în k clustere bazate pe distanța față de centroizi.


Exemplu:
Gruparea supereroilor în funcție de trăsături precum forță, viteză și abilitatea de zbor.

k-Means Clustering

media

11

media

Descriere:
HCA este o metodă de clustering ierarhic care organizează punctele de date într-o structură de tip arbore, numită dendrogramă. Aceasta grupează datele fie de jos în sus, fie de sus în jos.

Hierarchical Clustering Analysis (HCA)

media
media

12

media

Descriere:
DBSCAN este un algoritm de clustering bazat pe densitate care grupează punctele de date pe baza densității în spațiu.

DBSCAN

media
media
media

Classification
vs.
Clustering

Show answer

Auto Play

Slide 1 / 12

SLIDE