Нормализация данных и работа с категориальными признаками

Нормализация данных и работа с категориальными признаками

University

5 Qs

quiz-placeholder

Similar activities

мужская половая система

мужская половая система

University

10 Qs

бауыр

бауыр

University

10 Qs

ЖКТ1

ЖКТ1

University

10 Qs

Мезенхимальные опухоли

Мезенхимальные опухоли

University

10 Qs

Квиз из мира ветеринарии

Квиз из мира ветеринарии

University

8 Qs

Сестринский процесс в медицине

Сестринский процесс в медицине

University

10 Qs

3.4.5.лекция педиатрия

3.4.5.лекция педиатрия

University

10 Qs

ФАРМАКОКИНЕТИКА

ФАРМАКОКИНЕТИКА

University

5 Qs

Нормализация данных и работа с категориальными признаками

Нормализация данных и работа с категориальными признаками

Assessment

Quiz

Health Sciences

University

Medium

Created by

Станислав Ладыгин

Used 2+ times

FREE Resource

5 questions

Show all answers

1.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

Почему при центрировании данных в универсальном методе нормализации предпочтительно использовать медиану, а не среднее арифметическое?

Потому что медиана всегда больше среднего арифметического

Потому что медиана устойчивее к выбросам и асимметрии распределения

Потому что медиана позволяет получить более широкий диапазон значений

Потому что медиана проще вычисляется для больших выборок

Answer explanation

Медиана выбирается для центрирования, поскольку она практически не изменяется под влиянием выбросов и не зависит от асимметрии распределения, что обеспечивает более стабильное представление центральной тенденции.

2.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

Какое преимущество даёт использование размаха значений (max–min) при масштабировании?

Он обеспечивает одинаковый итоговый диапазон

Он автоматически корректирует асимметрию распределения

Он позволяет сохранить оригинальное распределение данных без изменений

Он является оптимальным для категориальных данных

Answer explanation

Размах значений гарантирует, что все признаки будут иметь одинаковый итоговый диапазон (например, [0; 1]), но наличие выбросов может исказить масштабирование, так как экстремальные значения увеличивают размах и уменьшают «значимый» интервал для большинства данных.

3.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

При использовании стандартизации (Z-преобразования) почему признаки с различными распределениями могут оказывать неравное влияние на модель?

Потому что стандартное отклонение одинаково для всех распределений

Потому что стандартизация не гарантирует одинаковый итоговый диапазон для разных признаков

Потому что этот метод автоматически устраняет все различия между признаками

Потому что метод стандартизации применяется только к симметричным распределениям

Answer explanation

Стандартизация по среднему и стандартному отклонению может привести к различным итоговым диапазонам для признаков с разными распределениями, что означает, что признаки с меньшим стандартным отклонением будут иметь больший «вес» в модели.

4.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

Какую основную задачу решает метод One-Hot Encoding при работе с категориальными данными в контексте машинного обучения?

Он уменьшает количество признаков для ускорения обучения

Он преобразует категориальные значения в числовой вид, не навязывая искусственный порядок

Он нормализует числовые данные для устранения влияния выбросов

Он автоматически группирует схожие категории в один признак

Answer explanation

One-Hot Encoding позволяет преобразовать категориальные данные в числовой формат, при этом каждой категории соответствует отдельный бинарный признак, что предотвращает навязывание несуществующего порядка между категориями.

5.

MULTIPLE CHOICE QUESTION

45 sec • 1 pt

Какую роль играет число medcouple (MC) в скорректированном интервале для определения выбросов?

Оно служит для уменьшения влияния медианы на определение границ выбросов

Оно количественно оценивает степень асимметрии, что позволяет корректировать границы выбросов

Оно заменяет стандартное отклонение при масштабировании данных

Оно используется для преобразования категориальных данных в числовые значения

Answer explanation

Число medcouple показывает меру асимметрии распределения, что позволяет модифицировать традиционные границы выбросов (на основе IQR) и точнее определять их в случаях асимметричного распределения.