¿Qué es la tokenización en procesamiento de lenguaje natural?

PNL - Tema 2. Preprocesamiento de texto

Quiz
•
Computers
•
University
•
Easy
Víctor Yeste
Used 1+ times
FREE Resource
10 questions
Show all answers
1.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
El proceso de convertir texto en imágenes.
El proceso de dividir un texto en fragmentos más pequeños llamados "tokens".
El proceso de eliminar palabras comunes de un texto.
El proceso de traducir texto de un idioma a otro.
2.
MULTIPLE CHOICE QUESTION
1 min • 1 pt
¿Cuál es la principal diferencia entre lematización y stemming (radicalización)?
La lematización recorta palabras a su raíz sin importar la gramática, mientras que el stemming conserva la forma base correcta de la palabra.
La lematización toma en cuenta la categoría gramatical y la forma base de la palabra, mientras que el stemming solo recorta las palabras según reglas heurísticas
El stemming convierte todas las palabras a un único formato, mientras que la lematización las traduce a su forma más compleja.
La lematización es un proceso más rápido que el stemming.
3.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
¿Qué son las stopwords en el preprocesamiento de texto?
Son palabras que aparecen con poca frecuencia en un texto.
Son palabras que describen la acción principal en una oración.
Son palabras que se usan solo en textos científicos.
Son palabras que no aportan contenido semántico importante, como artículos y preposiciones.
4.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
¿Cuál de las siguientes técnicas de normalización de texto implica convertir todo el texto a minúsculas?
Eliminación de stopwords.
Lowercasing.
Eliminar acentos.
Eliminar puntuación.
5.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
¿Cuál es una desventaja del proceso de stemming (radicalización)?
Es un proceso lento y difícil de implementar.
Puede recortar demasiado las palabras y producir formas no existentes.
Siempre conserva la integridad semántica de las palabras.
Requiere un análisis gramatical detallado.
6.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
¿En qué tipo de lenguajes se debe tener especial cuidado al realizar la tokenización debido a su estructura gramatical compleja?
Lenguajes con alfabeto latino.
Lenguajes con pocos hablantes.
Lenguajes aglutinativos como el turco.
Lenguajes con un sistema de puntuación complejo.
7.
MULTIPLE CHOICE QUESTION
30 sec • 1 pt
¿Qué proceso se utiliza para eliminar caracteres especiales y números de un texto?
Normalización.
Tokenización.
Lematización.
Stemming.
Create a free account and access millions of resources
Similar Resources on Quizizz
12 questions
TICS

Quiz
•
1st Grade - Professio...
12 questions
EXAMEN DE WORD

Quiz
•
University
13 questions
Preguntas sobre CSS

Quiz
•
University
10 questions
Producción de texto e Hipertexto Unidad2

Quiz
•
University
11 questions
Citas Directas e Indirectas - APA 7

Quiz
•
University
10 questions
NORMAS APA

Quiz
•
University
12 questions
Producción de texto e Hipertexto Unidad3

Quiz
•
University
13 questions
Aplicaciones avanzadas en documentos - 1° Secundaria

Quiz
•
6th Grade - Professio...
Popular Resources on Quizizz
15 questions
Multiplication Facts

Quiz
•
4th Grade
25 questions
SS Combined Advisory Quiz

Quiz
•
6th - 8th Grade
40 questions
Week 4 Student In Class Practice Set

Quiz
•
9th - 12th Grade
40 questions
SOL: ILE DNA Tech, Gen, Evol 2025

Quiz
•
9th - 12th Grade
20 questions
NC Universities (R2H)

Quiz
•
9th - 12th Grade
15 questions
June Review Quiz

Quiz
•
Professional Development
20 questions
Congruent and Similar Triangles

Quiz
•
8th Grade
25 questions
Triangle Inequalities

Quiz
•
10th - 12th Grade