Разница между классификацией и регрессией

2019

Классификация и регрессия - две основные проблемы прогнозирования, которые обычно решаются в интеллектуальном анализе данных. Прогнозирующее моделирование - это метод разработки модели или функции с использованием исторических данных для прогнозирования новых данных. Существенное различие между классификацией и регрессией состоит в том, что классификация отображает объект входных данных в некоторые дискретные метки. С другой стороны, регрессия отображает объект входных данных в непрерывные действительные значения.

Сравнительная таблица

Основа для сравнения	классификация	регрессия
основной	Обнаружение модели или функций, в которых сопоставление объектов выполняется в заранее определенные классы.	Разработанная модель, в которой сопоставление объектов осуществляется в значения.
Включает предсказание	Дискретные значения	Непрерывные значения
Алгоритмы	Дерево решений, логистическая регрессия и т. Д.	Дерево регрессии (Случайный лес), Линейная регрессия и т. Д.
Природа прогнозируемых данных	Неупорядоченный	Приказал
Метод расчета	Точность измерения	Измерение среднеквадратичной ошибки

Определение классификации

Классификация - это процесс поиска или обнаружения модели (функции), которая помогает разделить данные на несколько категориальных классов. При классификации определяется членство группы в проблеме, что означает, что данные классифицируются под разными метками в соответствии с некоторыми параметрами, а затем метки прогнозируются для данных.

Производные модели могут быть продемонстрированы в форме правил «ЕСЛИ-ТО», деревьев решений или нейронных сетей и т. Д. Дерево решений - это принципиально блок-схема, которая напоминает древовидную структуру, где каждый внутренний узел изображает тест на атрибуте, и его ветви показывают результаты теста. Процесс классификации связан с проблемами, когда данные могут быть разделены на две или более дискретных метки, другими словами, на два или более непересекающихся набора.

Давайте возьмем пример, предположим, что мы хотим предсказать вероятность дождя в некоторых регионах на основе некоторых параметров. Тогда было бы два ярлыка дождя и без дождя, под которые можно классифицировать различные регионы.

Определение регрессии

Регрессия - это процесс поиска модели или функции для разделения данных на непрерывные реальные значения вместо использования классов. Математически, с проблемой регрессии, каждый пытается найти приближение функции с минимальным отклонением ошибки. В регрессии предсказывается, что числовая зависимость данных будет отличать ее.

Регрессионный анализ - это статистическая модель, которая используется для прогнозирования числовых данных вместо меток. Он также может идентифицировать движение распределения в зависимости от доступных данных или исторических данных.

Давайте возьмем аналогичный пример и в регрессии, где с помощью некоторых параметров мы находим возможность дождя в некоторых регионах. В этом случае существует вероятность, связанная с дождем. Здесь мы не классифицируем регионы в пределах дождя и никаких меток дождя, вместо этого мы классифицируем их с их вероятностью.

Ключевые различия между классификацией и регрессией

Процесс классификации моделирует функцию, с помощью которой данные прогнозируются в метках дискретных классов. С другой стороны, регрессия - это процесс создания модели, которая предсказывает непрерывное количество.
Алгоритмы классификации включают дерево решений, логистическую регрессию и т. Д. Напротив, дерево регрессии (например, Случайный лес) и линейная регрессия являются примерами алгоритмов регрессии.
Классификация предсказывает неупорядоченные данные, в то время как регрессия предсказывает упорядоченные данные.
Регрессия может быть оценена с использованием среднеквадратичной ошибки. Наоборот, классификация оценивается путем измерения точности.

Заключение

Техника классификации обеспечивает прогнозирующую модель или функцию, которая предсказывает новые данные в дискретных категориях или метках с помощью исторических данных. И наоборот, метод регрессии моделирует непрерывные функции, что означает, что он прогнозирует данные в непрерывных числовых данных.