Search Header Logo
Yapay Zeka 3. Hafta

Yapay Zeka 3. Hafta

Assessment

Presentation

Computers

6th - 8th Grade

Medium

Created by

Davut Enes Yılmaz

Used 2+ times

FREE Resource

14 Slides • 10 Questions

1

​Yapay Zeka Dersi

By Davut Enes Yılmaz

2

Geçen Haftalarda İşlediklerimiz

Karar Ağaçları, En yakın komşu algoritması, Bulanık Mantık, Bayes Teorimi

3

Bu hafta işleyeceklerimiz

Bayes teoriminde kaldığımız yerden devam edeceğiz ve Karar Ağaçlarına geçiş yapacağız.

4

Bayes teoremi kısaca bir olaydaki tüm değişkenlerin birbirinden bağısmız olduğunu varsayar. Yani örneğin havadaki yağmur hesaplamaları için nem oranı ile yükselitiyi birbirinden bağımsız değerlendirir.

Bayes Teoremi

media

5

Hava güneşli olduğunda futbol oynama olasılığını tahmin edelim. Bunun için yukarıdaki tablolardan hesaplamalar yapacağız.

media

6

Beklenti 1: Güneşliyken Futbol Oyna Evet
P(Evet | Güneşli) = P(Güneşli | Evet) * P(Evet) / P (Güneşli)

P (Güneşli |Evet) = 3/9 = 0.333, P(Güneşli) = 5/14 = 0.357, P(Evet)= 9/14 = 0.643

P (Evet | Güneşli) = 0.333 * 0.643 / 0.357 = 0.600

Beklenti 2: Güneşliyken Futbol Oyna Hayır
P(Hayır | Güneşli) = P(Güneşli | Hayır) * P(Hayır) / P (Güneşli)

P (Güneşli | Hayır) = 2/9 = 0.222, P(Güneşli) = 5/14 = 0.357, P(Hayır)= 5/14 = 0.357

P (Hayır | Güneşli) = 0.222 * 0.357 / 0.357 = 0.222

media

7

Kendi projemizi kodlayalım

Kodları görmek için tıklayın. https://colab.research.google.com/drive/188Tjjwux6FiZzAb84Rco0H1q2jxlsttX?usp=sharing

8

Multiple Choice

Araba verileri hangi formatta bulunuyordu?

1

Virgülle ayrılmış değerler dosyası
.csv

2

Excel tablosu
.xsl

3

Kullanıcıdan girdi kullanarak alındı.
input()

4

Metin Dosyası
.txt

9

Multiple Choice

Modellerin başarı oranını nasıl hesaplanıyor?

1

Sisteme rastgele değerler girilir ve bilgisayarın bu değerleri ne kadar hızlı işlediğine bakılarak bir yüzde belirlenir.

2

Modelin eğitilmesi için kullanılan toplam veri miktarının, projenin bitiş süresine bölünmesiyle hesaplanır.

3

Modelin test verileri üzerinde yaptığı doğru tahmin sayısını, toplam test verisi sayısına bölerek başarı (doğruluk) oranını hesaplarız

10

Multiple Choice

Makine öğrenmesi modellerinde Label Encoding (Verilerin Sayısallaştırılması) yapılmasının temel sebebi nedir?

1

Grafiklerin daha renkli ve güzel görünmesini sağlamaktır.


2

Algoritmaların sadece sayısal verilerle matematiksel işlem yapabilmesidir.

3

Veri setindeki hatalı yazılmış kelimeleri otomatik olarak düzeltmektir.


4

Verilerin bilgisayarda daha az yer kaplamasını sağlamaktır.


11

Multiple Choice

Kategorik verilerle bir Naive Bayes modeli oluşturmak için Scikit-Learn kütüphanesinden hangi sınıfı kullandık?

1

GaussianNB

2

CategoricalNB

3

MultinomialNB

4

LinearRegression

12

Fill in the Blanks

media image

13

Multiple Choice

Question image

Görselde gözüken kod bloğu hangi amaçla kullanılıyor.

1

Verileri test ve eğitim olmak üzere ikiye bölmek için kullanılır.

2

Modeli eğitmek için kullanılır.

14

Karar Ağaçları

Günümüz yapay zekasının ilk örneği

15

Word Cloud

Karar Ağacı denince aklınıza ne geliyor?

16

Karar ağaçları, sınıfları bilinen örnek veriden karar düğümleri (decision nodes) ve yaprak düğümleri (leaf nodes) oluşturarak ağaç şekilli bir karar akışı çıktısı veren yapay zekâ algoritmasıdır (SPSS, 1999). Karar ağaçları algoritması, veri setini bölüp küçülterek geliştirilen bir yöntemdir. Karar düğümleri bir veya birden fazla daldan meydana gelebilir. İlk düğüme kök düğüm (root node) denir. Karar ağacı algoritmaları hem metinsel hem de sayısal verilerden oluşabilir.

Karar Ağaçları Algoritması

media

17

Verilerin analizi yapılırken otomatik oluşan büyük ağaç yapılarının aşırı karmaşık olmasından dolayı ağaç dallarının takibi zordur.

Aşırı öğrenme (over fitting) yaşanabilir.

Dezavantajları

Ağaç yapılarının yorumlanması ve görselleştirilmesi kolaydır.
Hem metinsel hem de sayısal veriler analiz edilebilir.
Karar ağaçları, giriş parametrelerine bağlı çarpanlardan oluşan denklem şeklinde değil, koşullu bir çıkış modeli verir.
Bu nedenle modelin çalışması hızlıdır.
Yüksek miktarda veriye ihtiyaç duymadan model eğitimi gerçekleştirilebilir.
Birden fazla çıkış parametresine sahip problemleri çözebilir.

Avantajları

KARAR AĞAÇLARI

18

media

19

Karar Ağacı Modelleri

Gini indeksi (dizini) veya Gini katsayısı, İtalyan istatistikçi Corrado Gini tarafından 1912’de geliştirilen istatistiksel bir ölçüdür. Gini’ye dayalı ikili bölme işlemine göre çalışan bir karar ağacı algoritmasıdır. Bu algoritmada en son veya uçta olmayan her bir düğümde iki adet dal vardır. Hem sınıflandırma hem de regresyon (sayısal sonuç) uygulamalarında kullanılır. Budama işlemi oluşturulan karar ağacı yapısına göre değişiklik gösterir.

C&RT Karar Ağacı Algoritması

ID3, yapay zekâ alanında çalışmaya ilk başlayan öğrencilerin karar ağaçlarının temel çalışma şeklini kolayca öğrenebilecekleri ideal bir algoritmadır. ID3 karar ağaç algoritmasının C4.5 ve C5.0 isminde iki tane versiyonu sıklıkla kullanılmaktadır. ID3 karar ağacı algoritmasında her düğümden çıkan dallar ile karar ağacı oluşmaktadır. Ağaçtaki dalların sayısı algoritmada tahmin edilecek sınıf sayısına eşittir. Karar ağacı algoritmasında yapraktaki hata (error) oranına göre budama işlemi yapılır.

ID3 Karar Ağacı Algoritması

20

Karar Ağacı Modelleri

SPRINT algoritması 1996 yılında Shafer, Agrawal ve Mehta tarafından geliştirilip entropiye dayanmaktadır. SPRINT karar ağaçları algoritması büyük veri kümeleri için ideal bir algoritmadır. Ağaç yapısında en iyi dallanma için her bir değişkene ait özellikleri bir kez sıraya dizer ve karar ağaçı yapısı bu şekilde oluşur. Bu algoritmada her bir değişken için ayrı bir değişken listesi hazırlanır. Bölme işlemi tek bir özelliğin değerine göre saptanır.

SPRINT Karar Ağacı Algoritması

Karar ağacı CHAID algoritması istatistik tabanlı olarak G. V. Kass tarafından 1980’de geliştirilmiştir. Sınıflandırma ve regresyon uygulamalarında tercih edilir. CHAID algoritması, bağımsız değişkenlerin birbirleriyle olan etkileşimini bulan bir tekniktir. CHAID algoritması dallanma kriterinde bağımlı değişken kategorik ise iki ya da daha çok grup arasında fark olup olmadığını tespit eden Ki-kare testine göre bölme işlemini gerçekleştirir.

CHAID Karar Ağacı Algoritması

21

Karar Ağacı Modelleri

SLIQ karar ağacı algoritması 1996 yılında Agrawal, Mehta ve Rissanen tarafından geliştirilmiştir. Bu algoritma Gini tekniği ile nicel ve nitel veri tipleri kullanabilmektedir. Ayrıca verilerin sıralanması aşamasında en iyi dallara ayırma tekniğini uygulamaktadır. Bu algoritma hızlı ölçüm yapan bir sınıflandırıcıya ve hızlı ağaç budama algoritmasına sahiptir.

SLIQ Karar Ağacı Algoritmas

22

Multiple Choice

Temel başlangıç için uygun olan karar ağacı algoritması hangisidir?

1

C&RT Karar Ağacı Algoritması

2

CategoricalNB (Naive Bayes)

3

ID3 Karar Ağacı Algoritması

4

Destek Vektör Makineleri

23

Multiple Choice

Hem sınıflandırma hem de regresyon uygulamalarında kullanılabilen ve Gini katsayısına göre ikili bölme yapan karar ağacı algoritması hangisidir?

1

C&RT Karar Ağacı Algoritması

2

CategoricalNB (Naive Bayes)

3

ID3 Karar Ağacı Algoritması

4

Destek Vektör Makineleri

24

Multiple Choice

Tanım: İstatistik tabanlıdır ve bağımsız değişkenlerin etkileşimini inceler.

Bölme: Kategorik değişkenler arasındaki farkı bulmak için Ki-kare testini kullanır.

Kullanım: Sınıflandırma ve regresyonda tercih edilir.

1

C&RT Algoritması

2

CHAID Algoritması

3

ID3 Algoritması

4

SPRINT Algoritması

​Yapay Zeka Dersi

By Davut Enes Yılmaz

Show answer

Auto Play

Slide 1 / 24

SLIDE