시계열 데이터는 다양한 패턴으로 나타날 수 있다.

시계열 패턴은 추세(trend), 계절성(seasonality), 주기(cycle) 이렇게 세 가지 패턴으로 나뉘는데 보통 추세와 주기를 결합하여 추세-주기 성분으로 다룬다. 일반적으로 추세-주기 성분, 계절성 성분, 나머지 성분의 세 가지로 구성된다고 여겨진다.

 

6.1 시계열 성분

$y_t$ 는 데이터, $S_t$ 는 계절성성분, $T_t$ 는 추세-주기 성분, $R_t$ 는 나머지 성분이다.

덧셈 분해(additive decomposition) 에 대한 수식은 아래와 같다.

$y_t = S_t+ T_t + R_t,$

곱셈 분해(multiplicative decomposition) 에 대한 수식은 아래와 같다.

$y_t = S_t\times T_t \times R_t.$

계절성분이나 추세-주기 성분이 시계열 level에 의해 변하지 않는다면, 덧셈 분해가 적절하다. 계절성분이나 추세-주기 성분이 시계열의 level에 비례한다면, 곱셈 분해가 더 적절하다. 경제 분야의 시계열 데이터를 다룰 때 곱셈 분해를 많이 사용한다.

데이터의 변동성이 시간에 따라 안정적으로 나타날 때까지 변환한 다음 덧셈 분해를 사용하는 법도 있다. 로그 변환을 통해 곱셈 분해를 사용하는 것과 같은 효과를 볼 수 있다.

$y_t = S_t\times T_t \times R_t$    equals    $logy_t = logS_t+ logT_t + 1$

 

위의 표에서 원본 데이터를 근무일 기준으로 맞춰 조절을 통해 조절을 한다면 추세-주기 성분에 맞춰 시계열대로 움직이는 것을 확인할 수 있다.

데이터를 나눠서 추세-주기 성분, 계절성성분, 나머지 성분으로 나눠서 위와 같이 볼 수 있다. 우측의 회색 막대를 통해 성분의 상대적 눈금을 확인할 수 있다. 나머지 성분의 회색 막대는 크게 나타나는 것으로 보아 다른 성분의 패널보다 변동성이 작다는 것을 알 수 있다.

계절성으로 조절된 데이터

원본 데이터에서 계절성을 제거한 것을 계절성으로 조절된(seasonally adjusted) 데이터라고 부른다. 덧셈 분해에서는 $y_t - S_t$와 같이 조정하고, 곱셈 분해에서는 $y_t/S_t$와 같이 조정할 수 있다.

데이터를 접근할 때 '계절성'이 포커스가 아니라면, 계절성으로 조절된 시계열 데이터는 유용하다. 계절성 변동보다는 다른 요인이 더 중요하거나 다른 요인을 강조하고 싶을 때는 데이터를 계절성으로 조정할 수 있다. 이렇게 조정된 시계열도 추세-주기 성분과 나머지 성분이 있다. 만약, 시계열에서 '전환점'을 살펴보거나 어떤 방향으로의 변화를 해석하는 것이 목적이라면 계절성 조절 시계열 데이터보다는 추세-주기 성분을 사용하는 것이 낫다.

 

6.2 이동 평균

고전적인 시계열 분해 방법은 이동평균 (moving average) 방법을 사용하는 것이다.

$\hat{T}_{t} = \frac{1}{m} \sum_{j=-k}^k y_{t+j},$

$k$ 기간 안의 시계열 값을 평균하여 시간$t$ 의 추세-주기를 측정할 수 있다. 여기서 $m = 2k + 1$ 이다. 측정 시기가 비슷하면 값이 비슷할 수도 있다. 이러한 이동 평균 계산을 통해 데이터의 무작위성을 줄이고 깔끔한 추세-주기 성분만 남길 수 있다. 이를 차수 $m$의 이동평균이라는 의미에서 '$m-$MA'라고 부르기도 한다.

autoplot(elecsales, series="Data") +
  autolayer(ma(elecsales,5), series="5-MA") +
  xlab("Year") + ylab("GWh") +
  ggtitle("Annual electricity sales: South Australia") +
  scale_colour_manual(values=c("Data"="grey50","5-MA"="red"),
                      breaks=c("Data","5-MA"))

위의 코드를 활용하여 추세-주기를 확인해 볼 수 있다.

추세가 원본 데이터보다 얼마나 깔끔한지(매끄러운지), 시계열이 어떻게 움직이는지 확인할 수 있다. 이동평균의 차수는 추세-주기의 매끄러운 정도를 결정하고, 일반적으로 차수가 클수록 곡선이 매끄럽다.

 

이동평균의 이동평균

이동평균값을 또다시 이동평균할 수 있다. $m=2k+1$이 짝수라면 대칭적이지 않기 때문에, 홀수의 값으로 계산을 해야 한다. 하지만 이동평균을 두 번 함으로써 짝수 차수의 이동 평균을 대칭적으로 만들 수 있다.

 

+ Recent posts