¿Qué paso es necesario en el pipeline de NLTK antes de poder usar ne_chunk para NER?

Realizar el etiquetado gramatical (POS Tagging) con pos_tag.

Convertir el texto a una matriz TF-IDF.

¿Qué problema fundamental resuelven los Word Embeddings que TF-IDF no puede?

La captura del significado semántico.

El conteo de la frecuencia de las palabras.

¿Cuál es la tarea de entrenamiento de la arquitectura Skip-gram de Word2vec?

Predecir las palabras del contexto a partir de una palabra central.

Predecir la palabra central a partir de las palabras de su contexto.

Clasificar si una oración tiene un sentimiento positivo o negativo.

¿Cuál es la principal innovación de Doc2Vec sobre Word2vec?

Aprende un vector único para un documento completo, además de los vectores de palabras.

Solo funciona con el algoritmo Skip-gram.

¿Qué nos muestra la diagonal principal de una Matriz de Confusión?

Los aciertos del modelo, donde la clase real y la predicha coinciden.

Los errores del modelo, donde la clase real y la predicha son diferentes.

El número total de predicciones realizadas para cada clase.

¿Para qué sirve el parámetro stratify=y en la función train_test_split de Scikit-learn?

Para asegurar que la proporción de cada clase en entrenamiento y prueba.

Para que la división de datos sea más rápida.

Para que el conjunto de prueba sea más grande que el de entrenamiento.

Cuestionario 2 - NLP

Authored by Lautaro Perez

Computers

Professional Development

Used 1+ times

AI Actions

Add similar questions

Adjust reading levels

Convert to real-world scenario

Translate activity

More...

Content View

Student View

15 questions

Show all answers

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

¿Cuál es la idea central de la metodología Bag-of-Words (BoW)?

Crear vectores que capturen el significado semántico de las palabras.

Representar un documento contando la frecuencia de cada palabra, ignorando el orden.

Agrupar palabras en entidades como "Persona" o "Lugar".

Answer explanation

Justificación: BoW se enfoca únicamente en la frecuencia de las palabras (cuántas veces aparecen), tratando el documento como una "bolsa" donde el orden no importa.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

¿Cuál es la principal limitación de los modelos basados en frecuencia como BoW y TF-IDF?

Son muy lentos para procesar textos cortos.

Solo funcionan para el idioma inglés.

No entienden el significado (semántica) de las palabras ni su contexto.

Answer explanation

Justificación: Estos modelos no saben que "coche" y "auto" son sinónimos, ya que tratan cada palabra como un token único sin comprender su significado.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

En el modelo TF-IDF, ¿qué mide el componente IDF (Inverse Document Frequency)?

La frecuencia de una palabra dentro de un único documento.

La importancia de una palabra, dándole más peso a las que son raras en todo el corpus.

El número total de palabras en todo el corpus.

Answer explanation

Justificación: El IDF penaliza las palabras que son muy comunes en todos los documentos (como las stopwords) y premia a las que son raras y distintivas.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

¿Para qué se utiliza TfidfVectorizer de Scikit-learn?

Para entrenar un modelo de clasificación de texto.

Para realizar el etiquetado gramatical (POS Tagging) de un texto.

Para automatizar la creación de una matriz TF-IDF a partir de un corpus de texto.

Answer explanation

Justificación: TfidfVectorizer encapsula todo el proceso de tokenización, conteo y cálculo de pesos TF-IDF en un solo objeto.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

¿Cuál es el objetivo principal del Reconocimiento de Entidades Nombradas (NER)?

Reducir las palabras a su raíz o lema.

Identificar y clasificar entidades como personas, lugares y organizaciones en un texto.

Contar la frecuencia de los nombres propios en un documento.

Answer explanation

Justificación: NER se enfoca en extraer información estructurada (entidades con sus categorías) de texto no estructurado.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

¿Cuál es la principal ventaja de spaCy sobre NLTK para realizar NER en español?

NLTK no puede tokenizar texto.

spaCy ofrece modelos pre-entrenados de alto rendimiento para español, mientras que el NER de NLTK es principalmente para inglés.

El código de spaCy es más difícil de entender que el de NLTK.

Answer explanation

Justificación: La fortaleza de spaCy es su enfoque multilingüe y sus modelos listos para usar en producción para muchos idiomas, incluido el español.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

En el contexto de NER, ¿qué significa la etiqueta B-ORG?

Que el token está fuera (Outside) de una entidad de tipo Organización.

Que el token está dentro (Inside) de una entidad de tipo Persona.

Que el token es el comienzo (Beginning) de una entidad de tipo Organización.

Answer explanation

Justificación: El esquema BIO utiliza 'B' para el inicio, 'I' para el interior de una entidad, y el sufijo (ORG) para indicar el tipo de entidad.

Access all questions and much more by creating a free account

Create resources

Host any resource

Get auto-graded reports

Continue with Google

Continue with Email

Continue with Classlink

Continue with Clever

or continue with

Microsoft

Apple

Others

Already have an account?

Similar Resources on Wayground

16 questions

Scratch E

Quiz

•

1st Grade - Professio...

20 questions

Normas de cableado estructurado

Quiz

•

Professional Development

10 questions

Partes Externas e Internas de un Computador

Quiz

•

Professional Development

16 questions

SMR-RL-UT8-VLAN (nivel I)

Quiz

•

Professional Development

10 questions

Introdução à Computação

Quiz

•

Professional Development

19 questions

SC-900_Módulo 4

Quiz

•

Professional Development

11 questions

HTML & CSS

Quiz

•

Professional Development

10 questions

Metaverso - IES Delgado Hernandez

Quiz

•

Professional Development

Popular Resources on Wayground

20 questions

Math Review

Quiz

•

3rd Grade

15 questions

Fast food

Quiz

•

7th Grade

20 questions

Context Clues

Quiz

•

6th Grade

20 questions

Inferences

Quiz

•

4th Grade

19 questions

Classifying Quadrilaterals

Quiz

•

3rd Grade

20 questions

Figurative Language Review

Quiz

•

6th Grade

20 questions

Equivalent Fractions

Quiz

•

3rd Grade

10 questions

Identify Fractions, Mixed Numbers & Improper Fractions

Quiz

•

3rd - 4th Grade

Discover more resources for Computers

20 questions

Guess The App

Quiz

•

KG - Professional Dev...

10 questions

Food Quiz

Quiz

•

Professional Development

11 questions

NFL Football logos

Quiz

•

KG - Professional Dev...

19 questions

Minecraft

Quiz

•

6th Grade - Professio...

20 questions

Block Buster Movies

Quiz

•

10th Grade - Professi...

40 questions

Flags of the World

Quiz

•

KG - Professional Dev...

23 questions

super heros

Quiz

•

KG - Professional Dev...

11 questions

SOCCER PLAYERS AND TEAMS

Quiz

•

KG - Professional Dev...

Cuestionario 2 - NLP

¿Cuál es la idea central de la metodología Bag-of-Words (BoW)?

Justificación: BoW se enfoca únicamente en la frecuencia de las palabras (cuántas veces aparecen), tratando el documento como una "bolsa" donde el orden no importa.

¿Cuál es la principal limitación de los modelos basados en frecuencia como BoW y TF-IDF?

Justificación: Estos modelos no saben que "coche" y "auto" son sinónimos, ya que tratan cada palabra como un token único sin comprender su significado.

En el modelo TF-IDF, ¿qué mide el componente IDF (Inverse Document Frequency)?

Justificación: El IDF penaliza las palabras que son muy comunes en todos los documentos (como las stopwords) y premia a las que son raras y distintivas.

¿Para qué se utiliza TfidfVectorizer de Scikit-learn?

Justificación: TfidfVectorizer encapsula todo el proceso de tokenización, conteo y cálculo de pesos TF-IDF en un solo objeto.

¿Cuál es el objetivo principal del Reconocimiento de Entidades Nombradas (NER)?

Justificación: NER se enfoca en extraer información estructurada (entidades con sus categorías) de texto no estructurado.

¿Cuál es la principal ventaja de spaCy sobre NLTK para realizar NER en español?

Justificación: La fortaleza de spaCy es su enfoque multilingüe y sus modelos listos para usar en producción para muchos idiomas, incluido el español.

En el contexto de NER, ¿qué significa la etiqueta B-ORG?

Justificación: El esquema BIO utiliza 'B' para el inicio, 'I' para el interior de una entidad, y el sufijo (ORG) para indicar el tipo de entidad.

¿Qué paso es necesario en el pipeline de NLTK antes de poder usar ne_chunk para NER?

Justificación: ne_chunk (el reconocedor de entidades de NLTK) necesita las etiquetas gramaticales como entrada para poder agrupar los tokens en entidades.

¿Qué problema fundamental resuelven los Word Embeddings que TF-IDF no puede?

Justificación: Los embeddings crean vectores donde palabras con significados similares están cerca, algo que TF-IDF, basado en frecuencia, no puede hacer.

¿Cuál es la tarea de entrenamiento de la arquitectura Skip-gram de Word2vec?

Justificación: Skip-gram "salta" desde la palabra central para intentar adivinar las palabras que la rodean.

Access all questions and much more by creating a free account

Similar Resources on Wayground

Popular Resources on Wayground

Discover more resources for Computers