Perhatikan gambar. Plot ini dibuat dengan penurunan gradien (gradient descent); dengan gradient descent dengan momentum (β = 0,5) dan gradient descent dengan momentum (β = 0,9). Kurva mana yang sesuai dengan algoritma mana?

(1) gradient descent. (2) gradient descent with momentum (small β). (3) gradient descent with momentum (large β)

(1) gradient descent with momentum (small β). (2) gradient descent with momentum (large β) (3) gradient descent.

(1) gradient descent with momentum (small β). (2) gradient descent. (3) gradient descent with momentum (large β)

(1) gradient descent. (2) gradient descent with momentum (large β). (3) gradient descent with momentum (small β)

Misalkan penurunan gradien batch dalam jaringan dalam memakan waktu terlalu lama untuk menemukan nilai parameter yang mencapai nilai kecil untuk fungsi biaya J(W[1],b[1],...,W[L],b [L]). Manakah dari teknik berikut yang dapat membantu menemukan nilai parameter yang menghasilkan nilai kecil untuk J? (Centang semua yang sesuai)

Coba inisialisasi acak yang lebih baik untuk bobot

Coba tuning kecepatan pembelajaran α

Coba penurunan gradien mini-batch

Manakah dari pernyataan berikut tentang Adam yang Salah?

Adam harus digunakan dengan perhitungan gradien batch, bukan dengan batch mini.

hyperparameter learning rate Adam biasanya perlu di tuning

hyperparameter dalam Adam diset default $$\beta1=0.9$$ , $$\beta2=0.999$$ dan $$\alpha=10^{-8}$$

Adam mengkombinasikan keuntungan dari RMSProp dan Momentum

Optimization For Deep Learning

Authored by Fajar Astuti

Computers

University

AI Actions

Add similar questions

Adjust reading levels

Convert to real-world scenario

Translate activity

More...

Content View

Student View

10 questions

Show all answers

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Notasi mana yang akan Anda gunakan untuk menunjukkan aktivasi lapisan ke-3 jika masukannya adalah contoh ke-7 dari minibatch ke-8?

Answer explanation

superskrip [i]{j}(k) berarti lapisan ke-i, minibatch ke-j, contoh ke-k

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Manakah dari pernyataan tentang mini-batch gradient descent berikut yang Anda setujui?

Anda harus mengimplementasikan penurunan gradien batch-mini tanpa perulangan-for eksplisit pada batch-mini yang berbeda, sehingga algoritma memproses semua batch-mini pada waktu yang sama (vektorisasi).

Melatih satu epoch (satu melewati set pelatihan) menggunakan penurunan gradien batch mini lebih cepat daripada melatih satu epoch menggunakan penurunan gradien batch.

Satu iterasi penurunan gradien mini-batch (komputasi pada satu batch mini) lebih cepat daripada satu iterasi penurunan gradien batch.

Answer explanation

Vektorisasi bukan untuk menghitung beberapa batch mini dalam waktu yang bersamaan

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Mengapa ukuran mini-batch terbaik biasanya bukan 1 dan bukan m, melainkan sesuatu di antaranya?

Jika ukuran mini-batch adalah 1, kita kehilangan manfaat dari vektorisasi di seluruh contoh dalam mini-batch.

Jika ukuran mini-batch adalah m, kita berakhir dengan penurunan gradien batch, dimana kita tidak perlu memproses seluruh rangkaian pelatihan sebelum membuat kemajuan.

Jika ukuran mini-batch adalah m, kita berakhir dengan penurunan stochastic gradien batch, yang biasanya lebih lambat dibandingkan minibatch gradient.

Jika ukuran mini-batch adalah 1, kita mengakhiri seluruh set training sebelum membuat kemajuan

Answer explanation

Jika ukuran mini-batch adalah m, kita berakhir dengan penurunan gradien batch, yang harus memproses seluruh rangkaian pelatihan sebelum membuat kemajuan.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Misalkan biaya algoritme pembelajaran J, diplot sebagai fungsi dari jumlah iterasi, terlihat seperti ini:

Jika menggunakan penurunan gradien mini-batch, ini terlihat dapat diterima. Tetapi jika menggunakan penurunan gradien batch, ada yang salah.

Baik menggunakan penurunan gradien mini-batch atau penurunan gradien batch, ada yang salah.

Baik menggunakan penurunan gradien mini-batch atau penurunan gradien batch, dapat diterima.

Jika menggunakan penurunan gradien mini-batch, ada yang salah. Tetapi jika menggunakan penurunan gradien batch, ini terlihat dapat diterima.

Answer explanation

Akan ada beberapa osilasi saat menggunakan mini-batch gradient descent karena mungkin ada beberapa contoh data yang noise dalam batch. Namun penurunan gradien batch selalu menjamin J yang lebih rendah sebelum mencapai yang optimal.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Misalkan suhu di Casablanca selama tiga hari pertama bulan Januari adalah sama:
Jan 1st: θ1 = 10
Jan 2nd: θ2 = 10
Misalkan exponentially weighted average dengan β = 0,5 untuk melacak suhu: v0 = 0, vt = βvt−1 + (1 − β)θt. Jika v2 adalah nilai yang dihitung setelah hari ke-2 tanpa koreksi bias, dan v2corrected adalah nilai yang dihitung dengan koreksi bias. Manakah nilai yang paling tepat?

v2=7.5 dan v2corrected = 10

v2=10 dan v2corrected = 7.5

v2=7.5 dan v2corrected = 7.5

v2=10 dan v2corrected = 10

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Manakah dari berikut ini yang BUKAN merupakan skema peluruhan (decay scheme) laju pembelajaran yang baik? Di sini, t adalah jumlah epoch.

MULTIPLE SELECT QUESTION

45 sec • 1 pt

Anda menggunakan exponentially weighted average pada kumpulan data suhu London. Anda menggunakan yang berikut untuk melacak suhu: vt = βvt−1 + (1 − β)θt. Garis merah di bawah dihitung menggunakan β = 0,9. Apa yang akan terjadi pada kurva merah saat Anda memvariasikan β? (Centang dua yang sesuai)

penurunan β akan menggeser garis merah sedikit ke kanan.

peningkatan β akan menggeser garis merah sedikit ke kanan.

Penurunan β akan menghasilkan lebih banyak osilasi di dalam garis merah.

peningkatan β akan menghasilkan lebih banyak osilasi di dalam garis merah.

Access all questions and much more by creating a free account

Create resources

Host any resource

Get auto-graded reports

Continue with Google

Continue with Email

Continue with Classlink

Continue with Clever

or continue with

Microsoft

Apple

Others

Already have an account?

Similar Resources on Wayground

15 questions

Kuis Artificial Intelligence

Quiz

•

University

12 questions

MS Excel Basic

Quiz

•

University

15 questions

Introduction to Azure

Quiz

•

University

14 questions

Apple quiz

Quiz

•

5th Grade - University

11 questions

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΘΕΩΡΙΑ 1 ΜΕΤΑΒΛΗΤΕΣ

Quiz

•

12th Grade - University

10 questions

CPP Quiz 5

Quiz

•

University

11 questions

Intro to ML: The ML Revision Quiz

Quiz

•

University

10 questions

LATIHAN TIK

Quiz

•

7th Grade - University

Popular Resources on Wayground

15 questions

Fractions on a Number Line

Quiz

•

3rd Grade

20 questions

Equivalent Fractions

Quiz

•

3rd Grade

25 questions

Multiplication Facts

Quiz

•

5th Grade

$fractions$

22 questions

fractions

Quiz

•

3rd Grade

20 questions

Main Idea and Details

Quiz

•

5th Grade

20 questions

Context Clues

Quiz

•

6th Grade

15 questions

Equivalent Fractions

Quiz

•

4th Grade

20 questions

Figurative Language Review

Quiz

•

6th Grade

Discover more resources for Computers

30 questions

Quiz 1 Review

Quiz

•

University

Optimization For Deep Learning

Notasi mana yang akan Anda gunakan untuk menunjukkan aktivasi lapisan ke-3 jika masukannya adalah contoh ke-7 dari minibatch ke-8?

superskrip [i]{j}(k) berarti lapisan ke-i, minibatch ke-j, contoh ke-k

Manakah dari pernyataan tentang mini-batch gradient descent berikut yang Anda setujui?

Vektorisasi bukan untuk menghitung beberapa batch mini dalam waktu yang bersamaan

Mengapa ukuran mini-batch terbaik biasanya bukan 1 dan bukan m, melainkan sesuatu di antaranya?

Jika ukuran mini-batch adalah m, kita berakhir dengan penurunan gradien batch, yang harus memproses seluruh rangkaian pelatihan sebelum membuat kemajuan.

Misalkan biaya algoritme pembelajaran J, diplot sebagai fungsi dari jumlah iterasi, terlihat seperti ini:

Akan ada beberapa osilasi saat menggunakan mini-batch gradient descent karena mungkin ada beberapa contoh data yang noise dalam batch. Namun penurunan gradien batch selalu menjamin J yang lebih rendah sebelum mencapai yang optimal.

Manakah dari berikut ini yang BUKAN merupakan skema peluruhan (decay scheme) laju pembelajaran yang baik? Di sini, t adalah jumlah epoch.

Perhatikan gambar.Plot ini dibuat dengan penurunan gradien (gradient descent); dengan gradient descent dengan momentum (β = 0,5) dan gradient descent dengan momentum (β = 0,9). Kurva mana yang sesuai dengan algoritma mana?

Manakah dari pernyataan berikut tentang Adam yang Salah?

Adam dapat digunakan dengan perhitungan gradien batch dan batch mini.

Access all questions and much more by creating a free account

Similar Resources on Wayground

Popular Resources on Wayground

Discover more resources for Computers

Perhatikan gambar.
Plot ini dibuat dengan penurunan gradien (gradient descent); dengan gradient descent dengan momentum (β = 0,5) dan gradient descent dengan momentum (β = 0,9). Kurva mana yang sesuai dengan algoritma mana?