Search Header Logo

Cuestionario sobre Tokenización y Embeddings

Authored by Kevin Muñoz

Information Technology (IT)

Professional Development

Used 2+ times

Cuestionario sobre Tokenización y Embeddings
AI

AI Actions

Add similar questions

Adjust reading levels

Convert to real-world scenario

Translate activity

More...

    Content View

    Student View

10 questions

Show all answers

1.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es el propósito principal de la tokenización en el Procesamiento del Lenguaje Natural (PLN)?

Traducir el texto a diferentes idiomas.

Dividir el texto en unidades más pequeñas y manejables para que los modelos puedan procesarlo.

Corregir errores gramaticales en el texto.

Generar un resumen automático del texto.

2.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

Según el texto, ¿cómo manejan los modelos avanzados como GPT-4o la tokenización de palabras como 'maúlla'?

Siempre la tratan como un único token porque es una palabra completa.

La dividen en subpalabras más pequeñas (por ejemplo, 'ma', 'úll', 'a').

La ignoran si no está en su vocabulario principal.

La convierten directamente en un embedding sin tokenizarla.

3.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es una ventaja clave de la tokenización de subpalabras mencionada en el documento?

Hace que el proceso de tokenización sea más rápido que la tokenización por palabras.

Reduce la necesidad de generar embeddings.

Permite manejar palabras raras o desconocidas dividiéndolas en partes que el modelo ya conoce.

Asegura que cada palabra siempre corresponda a un único token.

4.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Por qué es necesario asignar un ID numérico único a cada token después de la tokenización?

Para contar el número total de palabras en el texto.

Para que las computadoras, que solo trabajan con números, puedan procesar los tokens y usarlos como base para los embeddings.

Para facilitar la traducción del token a otros idiomas.

Para ordenar los tokens alfabéticamente antes de generar embeddings.

5.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Qué es un 'embedding' en el contexto del PLN, según la explicación proporcionada?

Un algoritmo para tokenizar texto de forma eficiente.

Una representación numérica (un vector) de un token que captura su significado en contexto.

Un identificador único asignado a cada palabra del vocabulario.

Una técnica para comprimir el texto y reducir su tamaño.

6.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Cuál es la idea clave detrás de los embeddings respecto a palabras con significados similares?

Tendrán embeddings con un mayor número de elementos.

Sus embeddings serán muy diferentes para evitar confusión.

Tendrán representaciones vectoriales (embeddings) cercanas en el espacio multidimensional.

Serán tokenizadas usando un menor número de subpalabras.

7.

MULTIPLE CHOICE QUESTION

1 min • 1 pt

¿Qué significa que los LLM modernos generan 'embeddings contextuales'?

Que el embedding de una palabra es siempre el mismo, sin importar la oración.

Que el embedding de una palabra cambia dependiendo de las otras palabras que la rodean en la oración.

Que solo se generan embeddings para palabras que aparecen en contextos muy específicos.

Que los embeddings se actualizan cada vez que el contexto global del documento cambia.

Access all questions and much more by creating a free account

Create resources

Host any resource

Get auto-graded reports

Google

Continue with Google

Email

Continue with Email

Classlink

Continue with Classlink

Clever

Continue with Clever

or continue with

Microsoft

Microsoft

Apple

Apple

Others

Others

Already have an account?