3. Linear Regression
- 본 장에서는 지도 학습을 위한 간단한 접근 방식인 선형 회귀에 대한 방식을 설명한다.
- 통계 컨설턴트로써 데이터를 기반하여 계획을 제안할 때 선형 회귀를 사용하면 답할 수 있는 질문이다.
1. 광고예산과 매출은 관계가 있나요?
우리의 첫 번째 목표는 데이터가 광고 지출과 판매 사이의 연관성에 대한 증거를 제공하는지 여부를 결정하는 것입니다. 증거가 약하면 광고에 돈을 쓰지 않아야 한다고 주장할 수 있습니다.
2. 광고예산과 매출의 관계는 어느 정도인가?
광고와 판매 사이에 관계가 있다고 가정하고 그 관계의 강도를 알고 싶습니다. 광고 예산에 대한 지식은 제품 판매에 대한 많은 정보를 제공합니까?
3. 판매와 관련된 미디어는 무엇입니까?
TV, 라디오, 신문의 세 가지 미디어가 모두 판매와 관련되어 있습니까, 아니면 한두 가지 미디어만 관련되어 있습니까? 이 질문에 답하기 위해 우리는 세 가지 매체 모두에 돈을 썼을 때 판매에 대한 각 매체의 개별 기여도를 분리하는 방법을 찾아야 합니다.
4. 각 매체와 매출의 연관성은 어느 정도입니까?
특정 매체에서 광고에 1달러를 지출할 때마다 매출이 얼마나 증가합니까? 이 증가량을 얼마나 정확하게 예측할 수 있습니까?
5. 미래 매출을 얼마나 정확하게 예측할 수 있습니까?
주어진 수준의 텔레비전, 라디오 또는 신문 광고에 대해 판매에 대한 예측은 무엇이며 이 예측의 정확도는 얼마입니까?
6. 관계가 선형입니까?
다양한 미디어의 광고 지출과 판매 사이에 대략 직선 관계가 있는 경우 선형 회귀가 적절한 도구입니다. 그렇지 않은 경우 선형 회귀를 사용할 수 있도록 예측 변수 또는 응답을 변환하는 것이 여전히 가능할 수 있습니다.
7. 광고매체 간의 시너지가 있는가?
아마도 텔레비전 광고에 $50,000를 지출하고 라디오 광고에 $50,000를 지출하는 것은 텔레비전이나 라디오에 개별적으로 $100,000를 할당하는 것보다 더 높은 매출과 연관될 것입니다. 마케팅에서는 이를 시너지 효과라고 하고 통계에서는 상호작용 효과라고 합니다.
3.1 Simple Linear Regression
- 단순 선형 회귀는 단일 예측 변수 X를 기반으로 Y를 예측하는 간단한 접근 방식이다.
- 이는 X와 Y사이에 선형 관계가 있다고 가정했을 때 수학적으로 아래와 같은 식으로 나타낼 수 있다.
$$ Y\approx β_0+β_1X. $$
- 식에서 $\approx$ 해당 기호는 대략적으로 오른쪽과 같이 모델링 됨을 뜻한다.
$$ sales \approx β_0 + β_1 × TV. $$
- 위의 식에서 $β_0$과 $β_1$은 선형 모델에서 절편과 기울기를 나타내는 미지의 상수이다. 또한 각각의 모델 계수 및 매계 변수를 뜻하기도 한다.
- 따라서, 해당 매개변수를 데이터에 기반하여 추정하게 되면 TV광고의 특정 값을 통해 미래의 판매액 예측이 가능하다.
$$ \hat{y} = \hat{β_0}+\hat{β_1}x, $$
- $\hat{y}$는 $X = x$에 기반하여 $Y$의 예측을 나타낸다. 여기서$\quad\hat{}\quad$는 미지의 매개변수 또는 계수에 대한 추정값을 나타내거나 예측값을 나타낸다.
3.1.1 Estimating the Coefficient
- $β_0$과 $β_1$은 알려져 있지 않은 값이다. 따라서 $Y\approx β_0+β_1X$를 통해 데이터에 기반하여 계수를 추정해야 한다.
$$ (x_1, y_1), (x_2, y_2),..., (x_n, y_n) $$
- X 측정값과 Y의 측정값 쌍으로 구성된 n개의 데이터 구성입니다. 해당 데이터를 최대한 근사할 수 있게 절편 $β_0$과 기울기 $β_1$을 찾는다.
- 데이터 포인트에 회귀선을 closeness하게 그리는 방법 중에는 여러 방법이 있지만 일반적으로 최소 제곱법(Least Square)을 사용한다.
- $\hat{y}_i = \hat{β}_0 + \hat{β}_1x_i$를 $X$의 i번째 값을 기반으로 하는 $Y$에 대한 예측이라 한다.
- 이때 $e_i = y_i -\hat{y}_i$ 를 i번째 잔차라고 한다.
- 잔차는 실제 측정된 값과 예측된 값 간의 차이를 뜻한다.
- 잔차 제곱합 (RSS)는 다음과 같이 정의한다.
$$ RSS = e_1^2 + e_2^2 + \ldots+ e_n^2\\ RSS = (y_1−\hat{β}_0−\hat{β}_1x_1)^ 2+(y_2−\hat{β}_0−\hat{β}_1x_2)^ 2 + \ldots + (y_n−\hat{β}_0−\hat{β}_1x_n)^ 2 $$
- 최소 제곱법은 RSS를 최소화하는 계수의 추정치를 선택한다. 미적분을 통하여 수식을 정리하면 다음과 같다.
- 다수의 $\beta_0,\beta_1$ 값에 대한 RSS를 계산하여 least squares estimates(빨간점)을 구한 그림을 나타낸다.
3.1.2 Assessing the Accuracy of the Coefficient Estimates
- $Y = f(x)+ϵ$ 해당 식의 $f$가 선형 함수로 근사했다고 가정할 때 식은 다음과 같다.
- $\beta_0$은 절편($X=0$일 때 $Y$의 기댓값 ), $\beta_1$은 기울기($X$의 증가에 따른 Y의 평균증가)
- 모회귀선을 정의하며, $X$와 $Y$ 사이의 실제 관계에 가장 잘 맞는 선형근사이다.
- $$ Y = β_0 + β_1X+ϵ $$
- 100개의 $X$ 값을 임의로 생성하고 $Y=2+3X+\epsilon$ 에 대응하는 $Y$ 값을 생성하였다.
- 그림은 생성된 데이터를 통해 나타낸 그래프이다.
- 데이터 세트에서 추정된 많은 최소 제곱선(연파란색)의 평균이 실제 모집단 회귀선에 매우 가깝다.
- 모집단 회귀선을 알아내는 것은 불가능 하기 때문에 the least squares line을 통해 추정한다.
- 일부 데이터를 통해 매개변수를 각각 추정하면 각기 다른 모습을 보인다.
- 하지만 이를 평균치를 구하게 되면 모집단 회귀선을 근사한다.
- 표본에 다수의 추정치를 통해 평균을 구하게 되면 모집단에 근사한다.
- 하나의 추정치의 실제 모집단과 얼마나 다를까? 이는 $\hat{µ}$가 µ로 부터 얼마나 차이가 $\hat{µ}$의 표준 오차(Standard Error)를 계산한다($\sigma$는 $Y$의 값 $y_i$의 표준편차).
- $$ Var(\hat{\mu})=SE(\hat{\mu})^2 = {\sigma^2 \over n} $$
- 대체로 표준오차는 추정값이 모집단과 얼마나 다른지 나타낸다.
- 또한, 관측치가 많아짐에 따라 표준오차 감소한다.
- 똑같은 개념으로 추정 기울기와 절편이 실제 기울기와 절편의 차이를 알고자 할 때 위와 같은 식으로 확인이 가능하다.
- 여기서 $σ^2 = Var(ϵ)$ 이며, $SE(\hat{β}_1)^2$의 분모가 나타내는 것은 $x_i$의 퍼짐 정도를 나타내며 $x_i$의 퍼짐에 따라 값의 크기가 커지는 것을 알 수 있다.
- $σ$에 대한 추정을 **Residual Standard Error(RSE)**라고 하며, RSE는 아래의 식을 통해 구할 수 있다.
신뢰구간
- 표준오차(Stand Error)는 신뢰구간을 계산하는데 사용한다.
- 신뢰구간 이란 모수가 실제로 포함될 것으로 예측되는 범위를 뜻한다.
- 이는 모집단 전체에 대한 연구가 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용되며, 즉 신뢰구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.
- 신뢰구간에 모집단 실제 평균값으로 포함될 확률을 CI의 신뢰수준이라하며 일반적으로 95%의 신로 수준을 사용한다.
- 선형 회귀(Linear Regression)에서 $β_1$에 대한 95%의 신뢰구간은 아래와 같다.
- $\beta_0$의 신뢰구간은 아래의 식에서 $\beta_1$을 $\beta_0$로 변환하면 된다.
가설 검정
- 표준 오차는 가설검정에도 이용된다. 가장 흔한 가설 검정은 귀무가설과 대립가설을 검정하는 것이다.
- 단순 회귀분석은 회수계수에 대한 가설검정은 t-통계량을 통해 검정하는데 “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.
- 모집단의 분산이나 표준편차를 알지 못해 모집단의 평균을 구하지 못할 때, t통계량을 이용하면, 표본평균과 표본분산으로 모평균을 구간추정할 수 있다.
- 데이터 세트에서 추정된 많은 최소 제곱선(연파란색)의 평균이 실제 모집단 회귀선에 매우 가깝다.
- 모집단 회귀선을 알아내는 것은 불가능 하기 때문에 the least squares line을 통해 추정한다.
- 일부 데이터를 통해 매개변수를 각각 추정하면 각기 다른 모습을 보인다.
- 하지만 이를 평균치를 구하게 되면 모집단 회귀선을 근사한다.
- 표본에 다수의 추정치를 통해 평균을 구하게 되면 모집단에 근사한다.
- 하나의 추정치의 실제 모집단과 얼마나 다를까? 이는 $\hat{µ}$가 µ로 부터 얼마나 차이가 $\hat{µ}$의 표준 오차(Standard Error)를 계산한다($\sigma$는 $Y$의 값 $y_i$의 표준편차).
- $$ Var(\hat{\mu})=SE(\hat{\mu})^2 = {\sigma^2 \over n} $$
- 대체로 표준오차는 추정값이 모집단과 얼마나 다른지 나타낸다.
- 또한, 관측치가 많아짐에 따라 표준오차 감소한다.
- 똑같은 개념으로 추정 기울기와 절편이 실제 기울기와 절편의 차이를 알고자 할 때 다음과 같은 식으로 확인이 가능하다.
- 여기서 $σ^2 = Var(ϵ)$ 이며, $SE(\hat{β}_1)^2$의 분모가 나타내는 것은 $x_i$의 퍼짐 정도를 나타내며 $x_i$의 퍼짐에 따라 값의 크기가 커지는 것을 알 수 있다.
- $σ$에 대한 추정을 **Residual Standard Error(RSE)**라고 하며, RSE는 아래의 식을 통해 구할 수 있다.
- 표준오차(Stand Error)는 신뢰구간을 계산하는데 사용한다.
- 신뢰구간 이란 모수가 실제로 포함될 것으로 예측되는 범위를 뜻한다.
- 이는 모집단 전체에 대한 연구가 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용되며, 즉 신뢰구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.
- 신뢰구간에 모집단 실제 평균값으로 포함될 확률을 CI의 신뢰수준이라하며 일반적으로 95%의 신로 수준을 사용한다.
- 선형 회귀(Linear Regression)에서 $β_1$에 대한 95%의 신뢰구간은 아래와 같다.
- $\beta_0$의 신뢰구간은 아래의 식에서 $\beta_1$을 $\beta_0$로 변환하면 된다.
- 표준 오차는 가설검정에도 이용된다. 가장 흔한 가설 검정은 귀무가설과 대립가설을 검정하는 것이다.
- 단순 회귀분석은 회수계수에 대한 가설검정은 t-통계량을 통해 검정하는데 “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.
- 모집단의 분산이나 표준편차를 알지 못해 모집단의 평균을 구하지 못할 때, t통계량을 이용하면, 표본평균과 표본분산으로 모평균을 구간추정할 수 있다.
- 표준오차(Stand Error)는 신뢰구간을 계산하는데 사용한다.
- 신뢰구간 이란 모수가 실제로 포함될 것으로 예측되는 범위를 뜻한다.
- 이는 모집단 전체에 대한 연구가 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용되며, 즉 신뢰구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.
- 신뢰구간에 모집단 실제 평균값으로 포함될 확률을 CI의 신뢰수준이라하며 일반적으로 95%의 신로 수준을 사용한다.
- 선형 회귀(Linear Regression)에서 $β_1$에 대한 95%의 신뢰구간은 아래와 같다.
- $\beta_0$의 신뢰구간은 아래의 식에서 $\beta_1$을 $\beta_0$로 변환하면 된다.
- 표준 오차는 가설검정에도 이용된다. 가장 흔한 가설 검정은 귀무가설과 대립가설을 검정하는 것이다.
- 단순 회귀분석은 회수계수에 대한 가설검정은 t-통계량을 통해 검정하는데 “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.
- 모집단의 분산이나 표준편차를 알지 못해 모집단의 평균을 구하지 못할 때, t통계량을 이용하면, 표본평균과 표본분산으로 모평균을 구간추정할 수 있다.
- 표준오차(Stand Error)는 신뢰구간을 계산하는데 사용한다.
- 가설 검정
- 신뢰구간
- 모집단의 분산이나 표준편차를 알지 못해 모집단의 평균을 구하지 못할 때, t통계량을 이용하면, 표본평균과 표본분산으로 모평균을 구간추정할 수 있다.
- 표준오차(Stand Error)는 신뢰구간을 계산하는데 사용한다.
- 가설 검정
- 신뢰구간
- 데이터 세트에서 추정된 많은 최소 제곱선(연파란색)의 평균이 실제 모집단 회귀선에 매우 가깝다.
- 모집단의 분산이나 표준편차를 알지 못해 모집단의 평균을 구하지 못할 때, t통계량을 이용하면, 표본평균과 표본분산으로 모평균을 구간추정할 수 있다.
https://crimson-slicer-378.notion.site/3-Linear-Regression-dd43202c52c74207b679946a50517865
'Statistics > ISLR 2nd Edition' 카테고리의 다른 글
ISLR 2nd Edition - 5장 (0) | 2021.11.01 |
---|---|
ISLR 2nd Edition - 4장 (0) | 2021.11.01 |
ISLR 2nd Edition - 2장 (0) | 2021.11.01 |