Контрольные карты Шухарта
ПРО-Аналитик +AI
для Windows, Mac, Linux

Реестр российского программного обеспечения (запись №18857 от 05.09.2023)

Приобрести ПО

Машинное обучение (Machine learning, ML). Кластеризация BIRCH, Gaussian Mixture

Кнопка [Функция машинного обучения - Кластеризация BIRCH.]

Кластеризация – это метод машинного обучения, который используется для группировки похожих или однородных экземпляров в отдельные кластеры данных. Этот метод используется в задачах машинного обучения без учителя.

Вы можете загрузить пример структурированного табличного файла для алгоритмов кластеризации: XLSX .

Для импорта могут быть использованы структурированные данные из табличных файлов: Книга Excel (*.xlsx); Двоичная книга Excel (*.xlsb); Электронная таблица OpenDocument Spreadsheet (*.ods).

Где может быть применено

Пример 1. Собранные отделом маркетинга данные о покупках клиентов позволяют понять есть ли сходство между покупателями. Эти сходства делят клиентов на группы (кластеры), а наличие групп клиентов помогает в таргетинге кампаний, рекламных акций, конверсий и построении лучших отношений с клиентами.

Пример 2. Выделение наиболее однородных групп по качественным показателям смеси компонентов на основании количественных или качественных показателей каждого из компонентов в смеси.

Пример 3. Выделение наиболее однородных групп по качественным или количественным показателям готовой продукции на основании различных технологических режимов производства.

Пример 4. Выделение нетипичных объектов, которые не удаётся присоединить ни к одному из кластеров.

Кластеризация BIRCH
Кнопка [Функция машинного обучения - Кластеризация BIRCH.]

Кластеризация BIRCH (англ. balanced iterative reducing and clustering using hierarchies) - сбалансированное итеративное сокращение и кластеризация с помощью иерархий.

Для кластерного анализа алгоритмом BIRCH требуются данные с метрическими атрибутами. Метрический атрибут — это атрибут, значения которого могут быть представлены явными координатами в евклидовом пространстве (без категориальных переменных).

Окно перехода к функциям машинного обучения (Machine learning, ML) с выделенной кнопкой функции кластеризации

Рисунок 1. Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функциям кластеризации алгоритмами BIRCH и Gaussian Mixture.

Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функции кластеризации методом BIRCH.

Рисунок 2. Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функции кластеризации алгоритмом BIRCH.

Окно функций машинного обучения (Machine learning, ML) - Кластеризация методом BIRCH. Выбраны меры метрических атрибутов точек, установлены значения [Порогового значения] и [Количества кластеров], снята галочка в чек-боксе [Сохранить результаты].

Рисунок 3. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выбраны меры метрических атрибутов точек, установлены значения [Порогового значения] и [Количества кластеров], снята галочка в чекбоксах [Линии между центроидами и точками] и [Сохранить результаты]. Чёрными крестиками отображены центроиды (центры тяжести кластеров) с номерами кластеров.

Окно функций машинного обучения (Machine learning, ML) - Кластеризация методом BIRCH. Выведен выпадающуй список мер, для отражения по оси [Y]. Установлена галочка в чек-боксе [Сохранить результаты].

Рисунок 4. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выведен выпадающий список мер, для отражения по оси [Y].

Окно функций машинного обучения (Machine learning, ML) - Кластеризация методом BIRCH. Выведен выпадающуй список мер, для отражения по оси [X].

Рисунок 5. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выведен выпадающий список мер, для отражения по оси [X].

Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Установлена галочка в чек-боксе [Линии между центроидами и точками].

Рисунок 6. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Установлены галочки в чекбоксах [Линии между центроидами и точками] и [Сохранить результат].

Окно функций машинного обучения (Machine learning, ML) - Кластеризация методом BIRCH. Выведено сообщение о сохранении присвоенных кодов кластеров парам данных (X и Y) в исходном файле на листе BIRCH.

Рисунок 7. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выведено сообщение о сохранении присвоенных кодов кластеров парам данных (X и Y) в исходном файле на листе "BIRCH". В наименовании столбцов присвоенных кластеров сохраняется наименование метода кластеризации, автоматическое определение кластеров или определено пользователем, наименования пары мер и показателей [Порогового значения] и [Количества кластеров], выбранных пользователем.

Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выведена подсказка при наведении курсора мыши на кнопку перехода к функции нанесения вертикальных и горизонтальных линий на графики

Рисунок 8. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Выведена подсказка при наведении курсора мыши на кнопку перехода к функции нанесения вертикальных и горизонтальных линий на графики.

Окно вспомогательной функции нанесения вертикальных и горизонтальных линий на графики.

Рисунок 9. Окно функций машинного обучения (Machine learning, ML) - Кластеризация алгоритмом BIRCH. Окно вспомогательной функции нанесения вертикальных и горизонтальных линий на графики. Введены две вертикальные линии с именами и одна горизонтальная. Вы можете выводить любое количество линий с подписями (имя-значение). Можно изменять значение любой выбранной в списке линии. Можно удалять любую выбранную в выпадающем списке линию или все линии сразу.

Причины, по которым качество математической модели методом кластеризации BIRCH может быть недостаточным
  1. Неоптимальная настройка гиперпараметров: Кластеризация BIRCH имеет гиперпараметры, такие как пороговые значения и радиусы кластеров, которые необходимо настроить. Неправильный выбор гиперпараметров может привести к плохому качеству модели.
  2. Неточность и несоответствие данных: Качество кластеризации BIRCH может быть низким, если данные содержат шум или выбросы, которые могут нарушить границы и структуру кластеров.
  3. Незаданный или неправильно выбранный критерий сходства: Качество кластеризации BIRCH может зависеть от выбора или настройки критерия сходства. Неправильный выбор критерия сходства может привести к недостаточно точной кластеризации.
  4. Неправильное масштабирование данных: Если данные имеют различные диапазоны значений или различные единицы измерения, неправильное масштабирование может привести к низкому качеству кластеризации BIRCH.
  5. Недостаточное количество данных: Качество кластеризации BIRCH может быть недостаточным, если доступно недостаточное количество данных для обучения модели. Больший объем данных может улучшить качество кластеризации.
Кластеризация Gaussian Mixture
Кнопка [Функция машинного обучения - Кластеризация BIRCH.]

Модель смеси Гаусса (англ. Gaussian Mixture) — это вероятностная модель, которая предполагает, что все точки данных генерируются из смеси конечного числа распределений Гаусса с неизвестными параметрами. Этот алгоритм машинного обучения может присвоить каждой выборке гауссову диаграмму, которой она, скорее всего, принадлежит. В нашем анализе Gaussian Mixture представляет вариант ограничения ковариации оцениваемых классов разности: полная ковариация.

Модель максимизации ожиданий (Gaussian Mixture) обязательно будет использовать количество компонентов, указанное пользователем, в то время как модель вариационного вывода (Bayesian Gaussian Mixture) будет эффективно использовать только столько компонентов, сколько необходимо для хорошего соответствия. Если указанное пользователем количество компонентов меньше чем эффективное, на графике Bayesian Gaussian Mixture будет отображено количество компонентов, указанное пользователем.

Кластеризация алгоритмом Гауссовской смеси демонстрируется на двух графиках, соответствующих алгоритмам байесовской Гауссовской смеси с предварительным процессом Дирихле (вариационное байесовское оценивание гауссовой смеси, Bayesian Gaussian Mixture) и Гауссовской смеси (максимизация ожидания, Gaussian Mixture).

Для большей наглядности на графиках выводятся эллипсоиды модели гауссовской смеси.

Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функции кластеризации методом Gaussian Mixture.

Рисунок 10. Окно функций машинного обучения (Machine learning, ML). Выведена подсказка при наведении курсора мыши на кнопку перехода к функции кластеризации алгоритмом Gaussian Mixture.

Окно функции кластеризации методами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (3).

Рисунок 11. Окно функции кластеризации алгоритмами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (3).

 Окно функции кластеризации методами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (5).

Рисунок 12. Окно функции кластеризации алгоритмами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (5).

Окно функции кластеризации методами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (10).

Рисунок 13. Окно функции кластеризации алгоритмами Bayesian Gaussian Mixture (Байесовская гауссовская смесь с предварительным процессом Дирихле) и Gaussian Mixture. Установлен параметр количества компонентов равный (10).

В примере на рисунке ниже демонстрируются характеристики алгоритмов кластеризации BIRCH и Gaussian Mixture для «интересных» наборов данных.

алгоритмов кластеризации BIRCH и Gaussian Mixture для «интересных» наборов данных.

Рисунок 14. Сравнительная демонстрация характеристик алгоритмов кластеризации BIRCH и Gaussian Mixture для «интересных» наборов данных. Последний набор данных (правый столбец) является примером «нулевой» ситуации для кластеризации: данные однородны, и не имеют хорошей кластеризации.

Предварительная автоматическая подготовка данных

Перед применением кластеризации импортированные данные автоматически масштабируются методом стандартизации.

Стандартизация — это процесс масштабирования данных таким образом, чтобы они имели среднее значение 0 и стандартное отклонение 1.

При наличии в импортируемых данных столбца с категориальными переменными, например, [мужчина, женщина], пользователю будет предложено провести автоматическую процедуру "Горячего кодирования" такого столбца для преобразования данных в новые столбцы с числовыми кодами [0, 1]. Преобразованные горячим кодированием данные будут сохранены в исходном файле [xlsx] на новом листе.

Горячее кодирование используется для преобразования категориальных переменных в формат, который может быть легко использован алгоритмами машинного обучения. Основная идея горячего кодирования заключается в создании новых переменных, которые принимают значения [0] и [1] для представления исходных категориальных значений. Иначе говоря, каждое уникальное значение из столбца с нечисловыми значениями преобразуется в новый бинарный столбец, содержащий флаги [0] и [1]. В этом столбце [1] обозначает наличие этого значения, а [0] - его отсутствие.

Причины, по которым качество математической модели методом кластеризации Bayesian Gaussian Mixture и Gaussian Mixture может быть недостаточным
  1. Неправильный выбор количества компонент: Оба метода кластеризации рассчитывают на правильный выбор количества компонент в модели. Если выбрано недостаточное количество компонент или наоборот - слишком большое количество компонент, это может привести к недостаточно точной кластеризации.
  2. Неоптимальная настройка гиперпараметров: Оба метода имеют гиперпараметры, такие как параметры ковариационной матрицы и априорные распределения, которые нужно настроить. Неправильный выбор или настройка гиперпараметров может привести к плохому качеству модели кластеризации.
  3. Несоответствие предположений о распределении: Методы Bayesian Gaussian Mixture и Gaussian Mixture предполагают, что данные распределены по гауссовскому закону. Если данные не соответствуют этому предположению, то качество кластеризации может быть недостаточным.
  4. Неправильная обработка выбросов и шума: Наличие выбросов и шума в данных может негативно влиять на качество кластеризации. Если методы не адаптированы для обработки выбросов или не проводится предварительная обработка данных, это может привести к низкому качеству кластеризации.
  5. Недостаточное или неправильное масштабирование данных: Если данные имеют различные диапазоны значений или различные единицы измерения, необходимо правильно масштабировать данные перед кластеризацией. Неправильное масштабирование может сказаться на качестве кластеризации.