Машинное обучение (Machine learning, ML). Обучение математических моделей алгоритмом Деревьев решений (Decision Trees) методами регрессии и классификации

Кнопка [Обучение и применение математической модели методом деревьев решений (регрессия и классификация).]

Деревья решений относятся к категории алгоритмов машинного обучения (Machine learning, ML) с учителем и используются для предсказания как непрерывных (регрессия), так и категориальных (классификация) выходных переменных. Эта функция нашего программного обеспечения делает технологию машинного обучения доступной широкому кругу пользователей.

Вы можете загрузить пример структурированного табличного файла для создания математической модели и предсказания алгоритмом Деревьев решений для регрессионного анализа: XLSX и для классификации XLSX .

Для импорта могут быть использованы структурированные данные из табличных файлов: Книга Excel (*.xlsx); Двоичная книга Excel (*.xlsb); Электронная таблица OpenDocument Spreadsheet (*.ods).

Где применяется

Анализ данных методом деревьев решений может быть применён:

как эффективная (стоимость, время, ресурсы) альтернатива " Планированию экспериментов "для поиска оптимальных режимов входных параметров;
для предварительной или альтернативной оценки выходных параметров, когда измерительные процедуры таких параметров проводятся дорогостоящими и/или длительными испытаниями;
для экспертных систем поддержки приятия решений (СППР), когда решения связаны с рисками совершения ошибок человеком.

Файлы моделей данных

В нашем программном обеспечении могут быть использованы обученные математические модели Деревьев решений для библиотеки scikit-learn, созданные на других компьютерах и сохранённые в файлах (*.sav).

Деревья решений методом регрессии для непрерывных величин (измерений) на входе и выходе

Пример использования от одного из наших клиентов:
Вы управляете разработкой конструкции и сборочным производством, а детали заказываете у крупного металлообрабатывающего центра. Количество запросов на расчёт стоимости металлоцентра значительно превышает количество реальных заказов у него. Менеджеры металлоцентра уже с неохотой и задержкой отвечают на ваши запросы. Вы предлагаете металлоцентру передать вам алгоритм расчёта, чтобы вы самостоятельно могли оперативно рассчитывать стоимость работ металлоцентра, не отвлекая его сотрудников от работы, но, естественно, получаете отказ.

История ваших заказов с количеством, техническими характеристиками деталей (которые являются базой для расчёта стоимости услуг металлоцентра) и предоставленной стоимостью - это отличная база для создания регрессионной модели и использования её для самостоятельного получения очень близких цен металлоцентра без отправления заявок на расчёт. Функция машинного обучения Деревья решений методом регрессии программного обеспечения Контрольные карты Шухарта +AI будет демонстрировать оценку точности математической модели при её построении. Графический анализ ошибки предсказанных с помощью построенной математической модели цен металлоцентра "Актуальные vs. Предсказанные значения" продемонстрирует вам оценку возможных рисков, как в "опасную", так и в "безопасную" сторону, которые вы сможете учесть в своём ценообразовании. Для актуализации вашей математической модели вы сможете дополнять её заказами, которые реально дойдут до исполнения в металлоцентре.

Рисунок 1. Окно перехода к функциям машинного обучения (Machine learning, ML). Выведен список выпадающего меню при наведении курсора мыши на пункт главного меню.

Рисунок 2. Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функциям деревьев решений (регрессия и классификация).

Окно перехода к функциям применения алгоритмов машинного обучения методами деревьев решений (регрессия и классификация).

Рисунок 3. Окно перехода к функциям управления алгоритмами машинного обучения методами деревьев решений (регрессия и классификация). Выведена выпадающая подсказка при наведении курсора мыши на кнопку перехода к панели управления алгоритмами деревьев решений (регрессия).

Рисунок 4. Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия). Открыт выпадающий список для выбора предсказываемой переменной.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-2.

Рисунок 5. Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия). Установлена галочка в чек-боксе снятия ограничений на глубину дерева решений. Установлена галочка в чек-боксе для сохранения модели при изменении параметров модели в соответствующей папке приложения (SCCPython\resources\Model_AI).

Рисунок 6. Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия). Открыт выпадающий список с типами графиков оценки математической модели. В области построения представлен график "Актуальные vs. Предсказанные значения" для тестового набора данных.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-4.

Рисунок 7. Окно функции управления применением математической модели дерева решений (регрессия). График масштабирован по оси X для отображения меньшего количества точек (от 140 до 196) с помощью инструмента "Масштаб" под графиком. Выведена выпадающая подсказка при наведении курсора на кнопку перехода к функции выбора обученной математической модели для её применения к новым данным, выбранным на следующих шагах.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-5.

Рисунок 8. Окно функции управления выбором математической модели Дерева решений (регрессия). Выведена выпадающая подсказка при наведении курсора на поле с путём к выбранной обученной математической модели.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-7.

Рисунок 9. Окно функции управления выбором математической модели Дерева решений (регрессия). Выведена выпадающая подсказка при наведении курсора на кнопку перехода к функции выбора данных для применения их в математической модели.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-8.

Рисунок 10. Окно функции управления выбором файла с данными и применения к ним математической модели Дерева решений (регрессия). Выведена выпадающая подсказка при наведении курсора на кнопку "Предсказать результаты".

Окно функции управления алгоритмом машинного обучения методом деревьев решений (регрессия)-9.

Рисунок 11. Окно функции управления применением математической модели дерева решений (регрессия) к импортированным данным. Кликом по кнопке "Предсказать результаты" осуществляется применение модели к импортируемым данным и по завершении операции открывается окно уведомления о сохранении предсказанных значений в файле Excel с исходными данными.

При наличии в импортируемых данных одного или нескольких столбцов независимых переменных с категориальными значениями, например, [мужчина, женщина], будет проведена автоматическая процедура "Горячего кодирования" для преобразования таких данных в новые столбцы с числовыми кодами [0, 1]. Преобразованные горячим кодированием данные будут сохранены в исходном файле [xlsx] на новом листе.

Причины, по которым точность математической модели методом Дерева решений (регрессия) может дать низкую точность

Ограниченные данные: Если входные данные для модели ограничены или содержат недостаточно информации, модель может столкнуться с недостатком данных для создания точной предсказательной модели.
Неправильный выбор признаков: Если в модель включены неподходящие или нерелевантные признаки, это может повлиять на точность модели. Выбор правильных признаков и очистка данных от выбросов и шума очень важны для достижения высокой точности модели регрессии.
Недообучение: Если модель не обучена достаточно долго или недостаточно сложна для аппроксимации сложных зависимостей в данных, она может давать низкую точность предсказаний. В таких случаях может потребоваться увеличение глубины дерева решений или использование других методов машинного обучения.
Переобучение: Если модель имеет слишком много параметров или слишком глубокое дерево решений, она может переобучиться на тренировочных данных и показывать низкую точность предсказаний на новых данных. Один из способов борьбы с переобучением - использование регуляризации, такой как подпружинивающие или ограничивающие параметры модели.
Несбалансированные данные: Если обучающий набор данных содержит неравномерное количество примеров значений целевой переменной, это может привести к низкой точности модели. В таких случаях может потребоваться применение методов взвешивания примеров.
Шум в данных: Шум или случайные выбросы в данных могут привести к низкой точности модели регрессии. Необходимо провести предварительный анализ данных и удалить выбросы, а также применить методы для снижения влияния шума, такие как сглаживание или фильтрация данных.

Деревья решений методом классификации для непрерывных величин (измерений) на входе и категориальных данных (классов) на выходе

Пример 1. По результатам клинических анализов пациента необходимо приять решение по его диагнозу, например болен/не болен.

Пример 2. Необходимо сделать вывод о принадлежности объекта или события к конкретному классу (типу) по результатам измерений множества его характеристик (свойств).

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-1.

Рисунок 12. Окно функции управления обучением и оценкой математической модели дерева решений (классификация). Выведена выпадающая подсказка при наведении курсора мыши на кнопку перехода к панели управления алгоритмами деревьев решений методом классификации.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-2.

Рисунок 13. Окно функции управления обучением и оценкой математической модели дерева решений (классификация). Установлена галочка в чек-боксе для снятия ограничения на глубину дерева решений. Установлена галочка в чек-боксе для сохранения модели при изменении параметров модели в соответствующей папке приложения (SCCPython\resources\Model_AI). Выведен выпадающий список с выбором типов графиков оценки обученной модели при использовании тестовых данных, которые не входили в набор данных для обучения.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-3.

Рисунок 14. Окно функции управления обучением и оценкой математической модели дерева решений (классификация) с графиками "матриц путаницы (confusion matrix)". Выведена подсказка при наведении курсора мыши на кнопку перехода к панели управления выбором обученной модели к импортируем на следующем шаге данным."

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-4.

Рисунок 15. Окно функции выбора обученной математической модели Дерева решений (классификация) к выбранным пользователем данным на следующем шаге. Выведена подсказка при наведении курсора мыши на кнопку перехода к панели управления выбором данных для применения к ним выбранной обученной модели.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-5.

Рисунок 16. Окно функции применения обученной математической модели дерева решений (классификация) к выбранным пользователем данным. Выведена подсказка при наведении курсора мыши на кнопку "Предсказать результаты".

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-6.

Рисунок 17. Окно функции применения обученной математической модели дерева решений (классификация) к выбранным пользователем данным. Кликом по кнопке "Предсказать результаты" осуществляется применение модели к импортируемым данным и по завершении операции открывается окно уведомления о сохранении предсказанных значений в файле Excel.

Окно функции управления алгоритмом машинного обучения методом деревьев решений (классификация)-7.

Рисунок 18. Окно функции управления обучением и оценкой математической модели дерева решений (классификация). В области графика выведены матрицы путаницы крупно - второй тип графиков для Дерева решений (классификация).

Причины, по которым точность математической модели методом Дерева решений (классификация) может дать низкую точность

Недостаточное количество данных: Если модель обучается на небольшом количестве данных, это может привести к низкой точности. Чем больше данных доступно для обучения, тем более точной может быть модель.
Неадекватный выбор признаков: Если неподходящие или нерелевантные признаки включены в модель, это может снизить ее точность. Важно выбрать те признаки, которые наиболее сильно коррелируют с целевой переменной для достижения высокой точности классификации.
Недостаточная предобработка данных: Некорректная обработка данных, такая как неправильное масштабирование или нормализация, может привести к низкой точности модели. Важно провести необходимые этапы предобработки данных, такие как очистка данных от выбросов или заполнение пропущенных значений.
Переобучение модели: Если модель слишком сложная или имеет слишком много параметров, она может переобучиться на тренировочных данных и показывать низкую точность на новых данных. Переобучение может быть снижено, например, с помощью ограничения глубины дерева или использования регуляризации.
Несбалансированность классов: Если классы в данных несбалансированы, то есть один класс преобладает над другими, модель может быть склонна предсказывать преобладающий класс и показывать низкую точность на менее представленных классах. В таких случаях применение методов балансировки классов, таких как апсэмплинг или даунсэмплинг, может улучшить точность модели.
Неверное выбор решающих правил: Если решающие правила, определяющие распределение классов в узлах дерева, выбраны неправильно, это может привести к низкой точности модели. Важно выбрать подходящие решающие правила, которые наиболее точно разделяют классы.

Контрольные карты Шухарта ПРО-Аналитик +AI для Windows, Mac, Linux Реестр российского программного обеспечения (запись №18857 от 05.09.2023)