Рабочая программа «Основы применения искусственного интеллекта и нейронных сетей в профессиональной деятельности»
Автор: Завалеева Екатерина Сергеевна
Организация: КГБ ПОУ ХТТБПТ
Населенный пункт: Хабаровский край, г. Хабаровск
Тематический план и содержание учебной дисциплины
|
Наименование разделов и тем |
Содержание учебного материала, лабораторные работы и практические занятия, самостоятельная работа обучающихся |
Объем часов |
Уровень освоения |
ОК, ПК, ЛР |
|
1 |
2 |
3 |
|
4 |
|
Раздел 1. |
Введение в машинное обучение |
16 |
|
|
|
Тема 1.1. Основные понятия машинного обучения |
|
2 |
1 |
ОК 01, ОК02, ОК04, ОК05,ОК9,ОК10 ПК 2.4 ЛР6-8 ЛР13, ЛР16-21 ЛР23 ЛР34 |
|
Тема 1.2. Линейная регрессия и аналитическое решение |
Модель линейной регрессии для одного и многих признаков. Функция потерь MSE (среднеквадратичная ошибка). Нормальное уравнение: вывод и условия применимости. Интерпретация коэффициентов модели. Ограничения линейного подхода. |
|
1, 2 |
|
|
Тема 1.3. Градиентное обучение и проблема переобучения |
Понятие градиента и градиентного спуска. Скорость обучения (learning rate). Пакетный (Batch), стохастический (SGD) и мини-пакетный градиентный спуск. Оптимизаторы: Momentum, RMSProp, Adam. Понятие переобучения и недообучения. Грубая сила против индуктивного смещения. |
|
1, 2 |
|
|
РАЗДЕЛ 2. |
Бинарная классификация, регуляризация и оценка качества |
20 |
|
|
|
Тема 2.1. Линейные методы классификации |
Постановка задачи бинарной классификации. Линейный классификатор и разделяющая гиперплоскость. Сигмоидная функция и её свойства. Логистическая регрессия как вероятностная модель. Функция потерь Log Loss (Binary Cross-Entropy), её градиент. |
2 |
1 |
ОК 01, ОК02, ОК04, ОК05,ОК9,ОК10 ПК 2.4 ЛР6-8 ЛР13, ЛР16-21 ЛР23 ЛР34 |
|
Тема 2.2. Регуляризация моделей |
Проблема мультиколлинеарности и переобучения в классификации. L2-регуляризация (Ridge) как априорное гауссовское распределение на веса. L1-регуляризация (Lasso): разреженность и автоматический отбор признаков. Elastic Net. Байесовский вывод регуляризаторов. |
2 |
2 |
|
|
Тема 2.3. Метрики качества бинарной классификации |
Ограничения Accuracy для несбалансированных классов. Матрица ошибок (Confusion Matrix): TP, TN, FP, FN. Точность (Precision), Полнота (Recall), их гармоническое среднее F1-мера. Специфичность. Выбор метрики в зависимости от бизнес-задачи: медицина (Recall), рекомендации (Precision), конкурсы (F1). |
2 |
1 |
|
|
Тема 2.4. Оценка качества и валидация моделей
|
Вероятностная интерпретация предсказаний. ROC-кривая и площадь под ней (ROC-AUC). Выбор порога классификации по бизнес-метрике. Кросс-валидация: K-Fold, Stratified K-Fold, Leave-One-Out. Разложение ошибки на смещение (bias) и разброс (variance). Диагностические кривые обучения и валидации. |
2 |
2 |
|
|
РАЗДЕЛ 3. |
Продвинутые алгоритмы обучения с учителем и ансамбли |
24 |
|
|
|
Тема 3.1. Метод опорных векторов (SVM) |
Идея максимального зазора между классами. Понятие опорных векторов. Линейно-разделимый случай (Hard Margin) и линейно-неразделимый (Soft Margin): параметр C. Ядровой трюк (Kernel Trick). Ядра: линейное, полиномиальное, RBF (гауссовское). Параметр γ для RBF. |
2 |
1,2 |
ОК 01, ОК02, ОК04, ОК05,ОК9,ОК10 ПК 2.4 ЛР6-8 ЛР13, ЛР16-21 ЛР23 ЛР34 |
|
Тема 3.2. Решающие деревья |
Логические закономерности в данных. Процесс построения дерева рекурсивным разбиением. Меры неопределённости: энтропия Шеннона и коэффициент Джини. Алгоритмы ID3 (для классификации) и CART (для классификации и регрессии). Проблема жадного алгоритма. Понятие усечения деревьев (pruning): pre-pruning и post-pruning. Обработка пропущенных значений в деревьях. |
2 |
2 |
|
|
Тема 3.3. Бэггинг и случайный лес |
Идея ансамблирования моделей. Генерация бутстрэп-выборок. Параллельный ансамбль: бэггинг (Bootstrap Aggregating). Декорреляция деревьев за счёт случайного подпространства признаков. Алгоритм Random Forest. Out-of-Bag (OOB) оценка качества. Важность признаков (Feature Importance) на основе среднего снижения Gini impurity и пермутаций. |
|
1, 2 |
|
|
Тема 3.4. Бустинг |
Последовательное построение ансамбля. Адаптивный бустинг (AdaBoost): взвешивание объектов, экспоненциальная функция потерь. Градиентный бустинг (GBM): обучение «коротких» деревьев на антиградиенте функции потерь. Проблема переобучения в бустинге и её решение: early stopping, стохастический градиентный бустинг (SGB). |
|
1, 2 |
|
|
Тема 3.5. Стекинг ансамблей |
Концепция мета-обучения. Уровни стекинга (Level 0, Level 1). Алгоритм обучения: генерация мета-признаков на кросс-валидации для предотвращения утечки данных. Блендинг (Blending) как упрощённый вариант стекинга. Выбор мета-модели (часто — логистическая регрессия или Ridge). |
|
1, 2 |
|
|
РАЗДЕЛ 4. |
Обучение без учителя, метрические и байесовские методы |
46 |
|
|
|
Тема 4.1. Метрические и байесовские классификаторы |
Теорема Байеса и её применение в классификации. Наивное предположение об условной независимости признаков. Виды наивного байеса: Гауссовский, Мультиномиальный, Бернуллиевский. Метод k ближайших соседей (kNN): метрики расстояния, выбор k, взвешенный учёт объектов. Метод парзеновского окна. Метод потенциальных функций. |
2 |
1, 2 |
ОК 01, ОК02, ОК04, ОК05,ОК9,ОК10 ПК 2.4 ЛР6-8 ЛР13, ЛР16-21 ЛР23 ЛР34 |
|
Тема 4.2. Снижение размерности данных (PCA) |
Проклятие размерности и проблема визуализации многомерных данных. Метод главных компонент (PCA): геометрическая интерпретация, максимизация дисперсии. Сингулярное разложение (SVD) и его связь с PCA. Выбор числа главных компонент по доле объяснённой дисперсии.. |
|
1, 2, 3 |
|
|
Тема 4.3. Кластеризация данных |
Постановка задачи кластеризации. Меры расстояния между объектами и кластерами. Алгоритм K-средних (K-means, алгоритм Ллойда): сходимость, выбор числа кластеров (метод локтя, силуэты). Плотностный алгоритм DBSCAN: понятие ядра, ε-окрестности, шумовых точек. Агломеративная иерархическая кластеризация и дендрограмма. Обнаружение аномалий (novelty/outlier detection). |
2 |
1,2 |
|
|
Тема 4.4. Введение в нейронные сети |
Модель искусственного нейрона: взвешенная сумма входов, функция активации. Функции активации: сигмоида, tanh, ReLU, их производные и проблема «исчезающего градиента». Многослойный перцептрон (MLP). Алгоритм обратного распространения ошибки (Backpropagation): вычисление градиентов с помощью chain rule.. |
|
2,3 |
|
|
Тема 4.4. Записи |
Определение и правила записи. |
|
1,2 |
|
|
РАЗДЕЛ 5. |
Индустриальный пайплайн машинного обучения и проектная работа |
46 |
|
|
|
Тема 5.1. Инжиниринг признаков (Feature Engineering) |
Процесс сбора и интеграции данных из разных источников. Анализ качества данных: типы пропусков (MCAR, MAR, MNAR), методы их обработки (удаление, заполнение константой/средним/медианой/KNN-импутация). |
2 |
1,2 |
ОК 01, ОК02, ОК04, ОК05,ОК9,ОК10 ПК 2.4 ЛР6-8 ЛР13, ЛР16-21 ЛР23 ЛР34 |
|
|
Инжиниринг численных признаков: масштабирование (StandardScaler, MinMaxScaler), биннинг, логарифмирование, полиномиальные признаки. Инжиниринг категориальных признаков: One-Hot Encoding, Label Encoding, Target Encoding, Count Encoding.. |
|
1,2 |
|
|
Тема 5.2. Итоговый проект и защита |
Методология ведения ML-проекта: от бизнес-задачи к метрике. Формирование проектных команд. Постановка гипотез. Построение baseline-модели. Итеративное улучшение: feature engineering, подбор гиперпараметров, ансамблирование. |
2 |
2,3 |
|
|
|
Методология ведения ML-проекта: от бизнес-задачи к метрике. Формирование проектных команд. Постановка гипотез. Построение baseline-модели. Итеративное улучшение: feature engineering, подбор гиперпараметров, ансамблирование. |
2 |
3 |
|
|
|
Методология ведения ML-проекта: от бизнес-задачи к метрике. Формирование проектных команд. Постановка гипотез. Построение baseline-модели. Итеративное улучшение: feature engineering, подбор гиперпараметров, ансамблирование. |
|
3 |
Для характеристики уровня освоения учебного материала используются следующие обозначения:
1. – ознакомительный (узнавание ранее изученных объектов, свойств);
2. – репродуктивный (выполнение деятельности по образцу, инструкции или под руководством)
3. – продуктивный (планирование и самостоятельное выполнение деятельности, решение проблемных за


