
Нормализация данных и работа с категориальными признаками
Authored by Станислав Ладыгин
Health Sciences
University
Used 2+ times

AI Actions
Add similar questions
Adjust reading levels
Convert to real-world scenario
Translate activity
More...
Content View
Student View
5 questions
Show all answers
1.
MULTIPLE CHOICE QUESTION
45 sec • 1 pt
Почему при центрировании данных в универсальном методе нормализации предпочтительно использовать медиану, а не среднее арифметическое?
Потому что медиана всегда больше среднего арифметического
Потому что медиана устойчивее к выбросам и асимметрии распределения
Потому что медиана позволяет получить более широкий диапазон значений
Потому что медиана проще вычисляется для больших выборок
Answer explanation
Медиана выбирается для центрирования, поскольку она практически не изменяется под влиянием выбросов и не зависит от асимметрии распределения, что обеспечивает более стабильное представление центральной тенденции.
2.
MULTIPLE CHOICE QUESTION
45 sec • 1 pt
Какое преимущество даёт использование размаха значений (max–min) при масштабировании?
Он обеспечивает одинаковый итоговый диапазон
Он автоматически корректирует асимметрию распределения
Он позволяет сохранить оригинальное распределение данных без изменений
Он является оптимальным для категориальных данных
Answer explanation
Размах значений гарантирует, что все признаки будут иметь одинаковый итоговый диапазон (например, [0; 1]), но наличие выбросов может исказить масштабирование, так как экстремальные значения увеличивают размах и уменьшают «значимый» интервал для большинства данных.
3.
MULTIPLE CHOICE QUESTION
45 sec • 1 pt
При использовании стандартизации (Z-преобразования) почему признаки с различными распределениями могут оказывать неравное влияние на модель?
Потому что стандартное отклонение одинаково для всех распределений
Потому что стандартизация не гарантирует одинаковый итоговый диапазон для разных признаков
Потому что этот метод автоматически устраняет все различия между признаками
Потому что метод стандартизации применяется только к симметричным распределениям
Answer explanation
Стандартизация по среднему и стандартному отклонению может привести к различным итоговым диапазонам для признаков с разными распределениями, что означает, что признаки с меньшим стандартным отклонением будут иметь больший «вес» в модели.
4.
MULTIPLE CHOICE QUESTION
45 sec • 1 pt
Какую основную задачу решает метод One-Hot Encoding при работе с категориальными данными в контексте машинного обучения?
Он уменьшает количество признаков для ускорения обучения
Он преобразует категориальные значения в числовой вид, не навязывая искусственный порядок
Он нормализует числовые данные для устранения влияния выбросов
Он автоматически группирует схожие категории в один признак
Answer explanation
One-Hot Encoding позволяет преобразовать категориальные данные в числовой формат, при этом каждой категории соответствует отдельный бинарный признак, что предотвращает навязывание несуществующего порядка между категориями.
5.
MULTIPLE CHOICE QUESTION
45 sec • 1 pt
Какую роль играет число medcouple (MC) в скорректированном интервале для определения выбросов?
Оно служит для уменьшения влияния медианы на определение границ выбросов
Оно количественно оценивает степень асимметрии, что позволяет корректировать границы выбросов
Оно заменяет стандартное отклонение при масштабировании данных
Оно используется для преобразования категориальных данных в числовые значения
Answer explanation
Число medcouple показывает меру асимметрии распределения, что позволяет модифицировать традиционные границы выбросов (на основе IQR) и точнее определять их в случаях асимметричного распределения.
Access all questions and much more by creating a free account
Create resources
Host any resource
Get auto-graded reports

Continue with Google

Continue with Email

Continue with Microsoft
or continue with
%20(1).png)
Apple
Others
Already have an account?