Quiz RL - Temporal Difference Algorithm

Quiz RL - Temporal Difference Algorithm

University

10 Qs

quiz-placeholder

Similar activities

Quiz 2 for Rennes

Quiz 2 for Rennes

University

5 Qs

Analysis of Algorithm Chapter 11 Randomized algorithm

Analysis of Algorithm Chapter 11 Randomized algorithm

University

8 Qs

Beneficios de los algoritmos probabilísticos

Beneficios de los algoritmos probabilísticos

University

10 Qs

Prueba de Excel

Prueba de Excel

University

10 Qs

Reinforcement Learning

Reinforcement Learning

University

10 Qs

AA3 - Aprendizaje por refuerzo

AA3 - Aprendizaje por refuerzo

University

10 Qs

MTA E1 S3

MTA E1 S3

University

10 Qs

AAS 02 - Anomaly Detection

AAS 02 - Anomaly Detection

University

15 Qs

Quiz RL - Temporal Difference Algorithm

Quiz RL - Temporal Difference Algorithm

Assessment

Quiz

Computers

University

Hard

Created by

meilana siswanto

Used 2+ times

FREE Resource

10 questions

Show all answers

1.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Dalam lingkup kajian Reinforcement Learning, Temporal Difference

Learning termasuk ...

Model-based algorithm

Model free algorithm

Reward based algorithm

Environment-based algorithm

2.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Berikut pernyataan yang benar tentang Temporal Difference

Learning adalah...

Model-based environment

Agent belajar dari lingkungan melalui pemodelan lengkap

Kombinasi dari Monte Carlo dan Dynamic Programming

Tidak ada jawaban yang benar

3.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Mengapa dikatakan bahwa Monte Carlo adalah ide dasar dari Temporal Difference Learning?

Karena dalam Monte Carlo, value-nya dievaluasi tiap episode

Karena pada algoritma Monte Carlo tidak perlu ada termination

Karena Monte Carlo merupakan model free algorithm

Karena setiap episode dalam Monte Carlo tidak independent

4.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

Berikut merupakan pernyataan yang benar tentang Temporal Difference Learning adalah...

Bersifat episodik dalam melakukan evaluasi value-nya

Bersifat non-episodik dalam melakukan evaluasi value-nya

Tidak memiliki learning rate

Bersifat independent, tidak bootstrapping

5.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Apa yang menyebabkan Dynamic Programming (DP) merupakan ide dari Temporal Difference Learning (TDL)?

DP dalam meng-update value-state harus menyelesaikan 1 episode

DP dapat meng-update value-state per-step dari episode

Semua kemungkinan transisi state tidak dipertimbangkan pada setiap step

TDL tidak bersifat bootstrapping sebagaimana DP

6.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Dua diantara pilihan berikut mana yang merupakan Temporal Difference Control adalah...

Monte Carlo dan Dynamic Programming

Markov Decision Process dan Monte Carlo

SARSA dan Q-Learning

SARSA dan Monte Carlo

7.

MULTIPLE CHOICE QUESTION

30 sec • 1 pt

Apa yang dimaksud dengan SARSA pada Temporal Difference Learning?

Merupakan Action-Value function

Off policy

Update value secara episodik

Semua jawaban benar

Create a free account and access millions of resources

Create resources
Host any resource
Get auto-graded reports
or continue with
Microsoft
Apple
Others
By signing up, you agree to our Terms of Service & Privacy Policy
Already have an account?