본문 바로가기

머신러닝(ML)

선형회귀란( Linear Regression )란...

지도 학습은 회귀( Regression )와 분류( Classification )로 세분화된다. 본 포스팅에서는 회귀(Regression) 분석 중 선형회귀( Linear Regression )에 대해서 알아보도록 하자.

선형회귀란?

선형(線型, linear, 라틴어: linearis)은 직선처럼 똑바른 도형 , 또는 그와 비슷한 성질을 갖는 대상이라는 뜻

입력(data)과 출력(Label)의 쌍으로 이루어진 데이터를 기반으로 이를 적절히 표현할 수 있는 선을 정의하는 것이다.
학교 다닐 때 수학 시간에 y = wX + b와 같은 일차 함수를 배웠다. wX - y + b = 0를 만족하는 해(x, y)를 찾았다.  반면, X(data)와 y(label) 값이 주어진다면 w(기울기)와 b(절편)를 구할 수 있을까?

X = Data : { 2, 3, 4 }, y = Label : { 5, 7, 9 }

w x 2 + b = 5
w x 3 + b = 7
w x 4 + b = 9

w x 10 + b = ?

위의 예에서 우린 w(기울기)와 b(절편)를 쉽게 찾을 수 있다. 그리고, 마지막 ?의 답을 21이라는 것을 쉽게 찾을 수 있다. 그럼 기계는 X : { 2, 3, 4 }, y : { 5, 7, 9 } 만을 가지고 어떻게 w(기울기)와 b(절편)를 찾을 수 있을까?

주어진 데이터(data, label)를 기반으로 이를 대표할 수 있는 적절한 w(기울기)와 b(절편)를 찾으면 1차 함수를 정의할 수 있다. 그렇다면, 이후 들어오는 X에 대해서 y를 찾을 수 있다. 즉, X에 대해 y를 예측 할 수 있는 것이다.

결국, 선형 회귀란 주어진 데이터를 가장 잘 설명할 수 있는 적절한 w(기울기)와 b(절편)를 찾는 것이다.

그럼 기계가 w(기울기)와 b(절편)를 찾을 수 있도록 해보자.

응용분야

  • 추세 분석
    특정 데이터 집합(GDP, 원유 가격 또는 주식 가격 등)에서 값이 증가세에 있는지 감소세 예측.

  • 역학 조사
    흡연율과 사망률, 유병률을 연관 관계등  관찰 연구에서 확인되었다. 관찰한 데이터에서 확신할 수 없는 상관 관계를 제거하기 위해, 연구자들은 일반적으로 실제로 관심있는 변수 외에도 여러 개의 변수를 삽입해 회귀 분석 모델을 수립한다. 예를 들어, 흡연률과 수명의 상관관계를 보고싶다고 하자. 연구자들은 실제로 관심있는 독립 변수인 흡연률 외에도 사회경제적 조건 등을 독립 변수에 추가적로 삽입해, 사회경제적 조건이 수명과 연관이 있는지 확인하곤 한다. 하지만 모든 가능한 변수를 추가할 수는 없으므로, 랜덤 통제 실험을 통해 상관관계를 조사하기도 한다.

  • 경제학
    선형 회귀는 경제학에서 경험적인 데이터를 통해 미래를 예측하고자 할 때 주로 사용된다. 비용 예측, 고정 투자 예측, 재고 관리 예측, 필요 유동 자산 예측, 노동 수요 예측, 노동 공급 예측 등에 선형 회귀를 사용할 수 있다.

  • 환경 과학
    캐나다의 환경 영향 모니터링 프로그램에서는 제지 공장과 광산이 수질에 미치는 영향을 조사하기 위해 물고기와 수질에 대해 선형 회귀를 사용하기도 했다.

요약

선형회귀(Linear Regression)란, 주어진 데이터를 가장 잘 설명할 수 있는 적절한 w(기울기)와 b(절편)를 찾는 것이다.