Search Header Logo
Introducción a la Ciencia de Datos

Introducción a la Ciencia de Datos

Assessment

Presentation

Computers

University

Easy

Created by

Sandy BM

Used 7+ times

FREE Resource

19 Slides • 7 Questions

1

media

2

media

3

media

4

media

5

Draw

¿Cuál es el proceso general de la Ciencia de Datos?

Coloca un número dentro de cada recuadro para ordenar adecuadamente las etapas listadas ( 1 es la primera, 5 es la última)

6

media

7

Multiple Choice

¿Por qué es importante el procesamiento de datos en ciencia de datos?

1

El procesamiento de datos es crucial para convertir datos en información útil.

2

El procesamiento de datos es irrelevante en ciencia de datos.

3

El procesamiento de datos solo se utiliza para almacenar datos sin importancia.

4

El procesamiento de datos no tiene impacto en la utilidad de la información.

8

Multiple Choice

¿Qué es la limpieza de datos y por qué es crucial en el procesamiento de datos?

1

La limpieza de datos es el proceso de detectar y corregir errores o inconsistencias en los datos para garantizar su calidad y fiabilidad. Es crucial en el procesamiento de datos porque datos limpios permiten obtener resultados precisos y confiables en análisis y toma de decisiones.

2

La limpieza de datos es un proceso opcional que no afecta la calidad de los datos

3

La limpieza de datos implica duplicar los datos para mayor precisión

4

La limpieza de datos es solo necesaria en análisis simples, no en procesos complejos

9

Multiple Choice

¿Qué es la visualización de datos en ciencia de datos?

1

Representación gráfica de datos para facilitar la comprensión y análisis.

2

Una técnica para duplicar datos en ciencia de datos.

3

Un proceso para eliminar datos en ciencia de datos.

4

Un método para ocultar datos en ciencia de datos.

10

Multiple Choice

¿Qué es la interpretación de resultados en ciencia de datos?

1

La interpretación de resultados en ciencia de datos es la predicción de futuros datos.

2

La interpretación de resultados en ciencia de datos es el análisis y comprensión de los resultados obtenidos a partir de los datos procesados.

3

La interpretación de resultados en ciencia de datos es la generación de datos aleatorios.

4

La interpretación de resultados en ciencia de datos es la eliminación de datos sin procesar.

11

media

12

Pandas

Limpieza y Preparación

Datasets
Encuestas
Registros

...

Recopilación

Comenzando con Ciencia de Datos

13

media

14

media

15

media

16

Multiple Select

¿Por qué utilizar Pandas?

1

Pandas nos permite analizar ‘bigdata’ y sacar conclusiones basadas en teorías estadísticas.

2

Pandas pueden limpiar conjuntos de datos desordenados y hacerlos legibles y relevantes.

3

Los datos relevantes son muy importantes en la ciencia de datos, la cual es una rama de la informática donde estudiamos cómo almacenar, usar y analizar datos para derivar información de ellos.

17

Multiple Select

¿Cuáles son los tipos de datos principales en Pandas?

1

Series

2

Dataframes

3

Numarrays

4

Matrices

18

media

19

21

Algunos métodos/funciones de pandas

1. df.shape:

  • Uso: Obtiene la forma del DataFrame, que es una tupla que indica el número de filas y columnas.

  • Ejemplo: Digamos que tenemos un DataFrame llamado "df" con 10 filas y 5 columnas. Al ejecutar df.shape, la salida sería: (10, 5). Esto significa que el DataFrame tiene 10 filas y 5 columnas.

2. df.index:

  • Uso: Obtiene el índice del DataFrame, que es la etiqueta de las filas. El índice puede ser numérico o personalizado.

22

Algunos métodos/funciones de pandas

3. df.columns:

  • Uso: Obtiene las columnas del DataFrame como una lista de etiquetas.

  • Ejemplo: Si las columnas de "df" son "Nombre", "Edad", "Ciudad", podemos acceder a una columna específica por nombre. Por ejemplo, df['Nombre'] devolvería una Serie que contiene los nombres de todas las filas.

4. df.dtypes:

  • Uso: Obtiene los tipos de datos de cada columna en el DataFrame.

  • Ejemplo: df.dtypes mostraría un Series con el tipo de datos de cada columna, como "int", "float", "object", etc.

23

Algunos métodos/funciones de pandas

5. df.values:

  • Uso: Convierte el DataFrame en un array NumPy que contiene los valores de las celdas.

  • Ejemplo: df.values sería útil para trabajar con los datos del DataFrame en operaciones de NumPy o para integrarlo con otras bibliotecas.

6. df.value_counts:

  • Uso: Calcula la frecuencia de cada valor único en una columna o en todo el DataFrame.

  • Ejemplo: Supongamos que la columna "Ciudad" contiene varias ciudades repetidas. df['Ciudad'].value_counts() mostraría la cantidad de veces que aparece cada ciudad.

24

Algunos métodos/funciones de pandas

7. df.head():

  • Uso: Muestra las primeras n filas del DataFrame. El valor predeterminado para n es 5.

  • Ejemplo: df.head(3) mostraría las 3 primeras filas del DataFrame.

8. df.tail():

  • Uso: Muestra las últimas n filas del DataFrame. El valor predeterminado para n es 5.

  • Ejemplo: df.tail(2) mostraría las 2 últimas filas del DataFrame.

25

Algunos métodos/funciones de pandas

9. df.describe():

  • Uso: Resume las estadísticas descriptivas de cada columna numérica en el DataFrame, como media, mediana, desviación estándar, etc.

  • Ejemplo: df.describe() proporciona una visión general rápida de las características numéricas del DataFrame.

10. df.sort_values(‘nombre de la columna’, ascending= False):

  • Uso: Ordena el DataFrame por una columna específica. El orden predeterminado es ascendente.

  • Ejemplo: df.sort_values('Edad', ascending=False) ordenaría el DataFrame por la columna "Edad" en orden descendente, colocando las edades más altas primero.

26

Ejercicio

1. Aplicar una función para conocer cuantas filas y cuantas columnas tiene el dataframe.
2. Obtener el índice utilizado en el dataframe.
3. Acceder a los nombres de las columnas del dataframe.
4. Obtener el tipo de datos de cada columna del dataframe.
5. Mostrar todos los valores del dataframe.
6. Mostrar los primeros 2 registros del dataframe.
7. Mostrar los últimos 3 registros del dataframe.
8. Obtener la estadística descriptiva del dataframe.
9. Ordenar el dataframe por la columna de Duration de menor a mayor.

​*Busca una base de datos de tu elección.
 -ASUNTOS TOTALMENTE CONCLUIDOS POR EL CENTRO ESTATAL DE JUSTICIA ALTERNATIVA
 
-CONCENTRADO DE BENEFICIARIOS EN MATERIA FAMILIAR 2023
*Escribe un programa en Python para que usando Pandas resuelvas la siguientes tareas.

media

Show answer

Auto Play

Slide 1 / 26

SLIDE