회귀(Regression) vs 분류(Classification)

머신러닝, 막연하게만 느껴지시나요?

회귀와 분류, 이 두 가지 핵심 개념만 제대로 이해해도 머신러닝의 절반은 뗀 것과 같습니다.

지금부터 쉽고 명확하게, 회귀와 분류의 차이점을 알려드리겠습니다.

지도 학습이란 무엇일까요?

회귀와 분류는 모두 지도 학습에 속합니다.

지도 학습은 '정답'이 있는 데이터를 사용하여 모델을 학습시키는 방법입니다.

예를 들어, 집의 크기와 가격 데이터를 사용하여 집 크기에 따른 가격을 예측하는 모델을 만들 수 있습니다.

이때 집 크기는 '입력 값', 가격은 '정답'이 됩니다.

회귀: 연속적인 값 예측

회귀는 연속적인 숫자 값을 예측하는 데 사용됩니다.

쉽게 말해, 어떤 값들이 주어졌을 때, 그 값들의 흐름을 파악하여 다음에 어떤 값이 나올지 예측하는 것입니다.

참고 자료에 따르면 키, 몸무게, 주가, 시험 점수, 판매량 등이 회귀 분석의 대표적인 예시입니다.

예를 들어, 최근 몇 년간의 주가 데이터를 분석하여 내년 주가를 예측하는 것이 회귀 분석입니다.

부동산 가격 예측도 마찬가지입니다.

역세권이라 접근성이 좋은 지역일수록, 국밥집이 든든하게 장사되는 곳일수록 집값은 오르기 마련이죠.

분류: 범주형 데이터 예측

분류는 데이터를 미리 정의된 클래스 또는 범주로 나누는 작업입니다.

'A인가, B인가?'와 같이 선택지 중 하나를 고르는 문제라고 생각하면 쉽습니다.

예를 들어, 이메일이 스팸인지 아닌지를 판단하거나, 이미지를 보고 고양이인지 강아지인지 구별하는 것이 분류입니다.

참고 자료에서는 물건의 상표명, 동물의 종류, 비가 왔는지 유무 등을 예시로 들고 있습니다.

유명한 브랜드 제품일수록 가품을 분류해야 할 필요성이 커지겠죠.

회귀 vs 분류: 출력값의 차이

회귀와 분류의 가장 큰 차이점은 출력값의 종류입니다.

회귀 모델은 연속적인 값을 출력하는 반면, 분류 모델은 이산적인 값을 출력합니다.

연속적인 값은 0.1, 0.2, 0.3과 같이 끊임없이 이어지는 값을 의미하고, 이산적인 값은 '개', '고양이', '새'와 같이 딱 떨어지는 값을 의미합니다.

비가 올 확률은 0%에서 100% 사이의 연속적인 값이지만, 비가 왔는지 안 왔는지는 '예' 또는 '아니오'라는 이산적인 값입니다.

실생활에서의 활용 예시

회귀와 분류는 실생활에서 다양하게 활용됩니다.

회귀는 주가 예측, 날씨 예측, 부동산 가격 예측 등에 사용됩니다.

분류는 스팸 메일 필터링, 이미지 인식, 의료 진단 등에 사용됩니다.

최근에는 인공지능 스피커를 통해 음악을 추천받거나, 영화를 추천받는 등의 서비스도 활발하게 사용되고 있는데, 이 역시 분류 모델의 한 종류라고 볼 수 있습니다.

회귀와 분류는 머신러닝의 기본적이면서도 중요한 개념입니다.

이 두 가지 개념을 이해하면 머신러닝 모델을 선택하고 활용하는 데 큰 도움이 될 것입니다.

회귀는 연속적인 값을 예측하고, 분류는 범주형 데이터를 예측한다는 점을 기억하세요.

머신러닝, 이제 더 이상 어렵게만 느껴지지 않으실 겁니다.

꾸준히 학습하고 실습하면서 머신러닝 전문가로 발돋움하시길 응원합니다.

KS Tree