Машинное обучение (Machine learning, ML). Обучение математических моделей алгоритмом Множественной линейной регрессии (Multiple Linear Regression)
Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.
Линейная регрессия определяется как процесс определения прямой линии, которая лучше всего соответствует набору разрозненных точек данных. Затем эту линию можно спроецировать для прогнозирования новых точек данных. Благодаря своей простоте и важным функциям линейная регрессия является фундаментальным методом машинного обучения.
В случае построения регрессионной зависимости некоторой случайной величины от совокупности нескольких случайных величин (одна зависимая переменная при нескольких независимых переменных) говорят о построении множественной линейной регрессии (Multiple Linear Regression). Если независимая переменная всего одно говорят о построении простой линейной регрессии.
Вы можете загрузить пример структурированного табличного файла для создания математической модели и предсказания алгоритмом Множественной линейной регрессии (образец этих данных также используется в алгоритмах Деревьев решений и Нейронных сетей для регрессионных моделей: XLSX .
Для импорта могут быть использованы структурированные данные из табличных файлов: Книга Excel (*.xlsx); Двоичная книга Excel (*.xlsb); Электронная таблица OpenDocument Spreadsheet (*.ods).
Где применяется
Анализ данных методом множественной линейной регрессии может быть применён:
- как эффективная (стоимость, время, ресурсы) альтернатива " Планированию экспериментов "для поиска оптимальных режимов входных параметров;
- для предварительной или альтернативной оценки выходных параметров, когда измерительные процедуры таких параметров проводятся дорогостоящими и/или длительными испытаниями;
- для экспертных систем поддержки приятия решений (СППР), когда решения связаны с рисками совершения ошибок человеком.
Файлы моделей данных
В нашем программном обеспечении могут быть использованы обученные математические модели Многомерной линейной регрессии для библиотеки scikit-learn, созданные на других компьютерах и сохранённые в файлах (*.sav).
Множественная линейная регрессия для непрерывных величин (измерений) на входе и выходе
Рисунок 1. Окно перехода к функциям машинного обучения (Machine learning, ML). Выведен список выпадающего меню при наведении курсора мыши на пункт главного меню [Методы анализа данных].
Рисунок 2. Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функциям множественной линейной регрессии.
Рисунок 3. Окно функции множественной линейной регрессии.
Рисунок 4. Окно функции множественной линейной регрессии. В поле с выпадающим списком [Типы графиков для оценки модели] выбран график [Линейный график. Актуальные vs. Предсказанные].
Рисунок 5. Окно функции множественной линейной регрессии. В поле с выпающим списком [Типы графиков для оценки модели] выбран график [Линейный график. Актуальные vs. Предсказанные]. Применено масштабирование графика по оси X.
Рисунок 6. Окно функции множественной линейной регрессии. В поле с выпающим списком [Типы графиков для оценки модели] выбран график [Таблица коэффициентов множественной линейной регрессии].
Рисунок 7. Окно функции множественной линейной регрессии. Выведена выпадающая подсказка при наведении курсора мыши на кнопку выбора табличного файла для импорта новых данных.
Рисунок 8. Окно функции выбора табличного файла для обучения математической модели методом многомерной линейной регрессии.
Рисунок 9. Окно функции множественной линейной регрессии. Выведена выпадающая подсказка при наведении курсора мыши на отмеченный галочкой чек-бокс [Сохранить модель]. Сохранение модели в соответствующей папке приложения [SCCPython\resources\Model_AI] происходит автоматически при выборе необходимой зависимой переменной в выпадающем списке [Предсказать значения зависимой переменной:]
Рисунок 10. Окно функции множественной линейной регрессии. Выведено окно сообщения о сохранении файла математической модели.
Рисунок 11. Окно функции множественной линейной регрессии. Выведена выпадающая подсказка при наведении курсора мыши на кнопку перехода к панели управления выбором сохранённой математической модели.
Рисунок 12. Окно функции множественной линейной регрессии. Панель управления выбором сохранённой математической модели. Выведена выпадающая подсказка при наведении курсора мыши на путь к файлу выбранной математической модели.
Рисунок 13. Окно функции множественной линейной регрессии. Панель управления выбором сохранённой математической модели. Выведена выпадающая подсказка при наведении курсора мыши на кнопку перехода к панели управления выбором файла с данными для предсказания зависимой переменной.
Рисунок 14. Окно функции множественной линейной регрессии. Панель управления выбором данных с независимыми переменными и применения математической модели для предсказания зависимой переменной. Выведена выпадающая подсказка при наведении курсора мыши на путь к файлу с данными. Выбран лист в файле с данными для предсказания значений показателя.
Рисунок 15. Окно функции множественной линейной регрессии. Панель управления выбором данных с независимыми переменными и применения математической модели для предсказания зависимой переменной. Выведена выпадающая подсказка при наведении курсора мыши на кнопку [Предсказать результаты].
Рисунок 16. Окно функции множественной линейной регрессии. Кликом по кнопке "Предсказать результаты" осуществляется применение модели к импортированным на предыдущем шаге данным и по завершении операции открывается окно уведомления о сохранении предсказанных значений в файле Excel.
При наличии в импортируемых данных одного или нескольких столбцов независимых переменных с категориальными значениями, например, [мужчина, женщина], будет проведена автоматическая процедура "Горячего кодирования" для преобразования таких данных в новые столбцы с числовыми кодами [0, 1]. Преобразованные горячим кодированием данные будут сохранены в исходном файле [xlsx] на новом листе.
Причины по которым точность математической модели методом линейной регрессии может дать низкую точность
- Несоответствие предположений линейной регрессии: Линейная регрессия предполагает линейную зависимость между признаками и целевой переменной. Если существуют нелинейные отношения, то линейная регрессия может давать низкую точность.
- Неправильный выбор признаков: Выбор правильных признаков очень важен для точности модели линейной регрессии. Если неподходящие или нерелевантные признаки включены в модель, это может снизить ее точность.
- Недостаточное количество данных: Если модель обучается на небольшом объеме данных, это может привести к низкой точности. Чем больше данных доступно для обучения, тем более точной может быть модель линейной регрессии.
- Нарушение предположений о независимости ошибок: Линейная регрессия требует, чтобы ошибки модели были независимыми и одинаково распределенными. Если это предположение нарушено, точность модели может быть низкой.
- Мультиколлинеарность признаков: Мультиколлинеарность возникает, когда признаки в модели сильно коррелируют между собой. Это может сказаться на точности линейной регрессии.
- Неправильная стандартизация признаков: В случае, если не произведена стандартизация признаков, то признаки с разными масштабами могут вносить неравномерный вклад в модель, что может привести к низкой точности.