시계열 데이터의 모델링을 하다보면 머리가 빠질것 같다
그중
# Lag Features1 생성
temp3['qty_lag_1'] = temp3['qty'].shift(1)
temp3['qty_lag_7_mean'] = temp3['qty'].shift(1).rolling(7, min_periods=1).mean()
# Lag Features2 생성
temp3['count_lag_1'] = temp3['count'].shift(1)
temp3['count_lag_7_mean'] = temp3['count'].shift(1).rolling(7, min_periods=1).mean()
features 선정할때 이 lag가 참 어렵다.
며칠로 잡을지 정말 어려웠다.
features 는 어떤걸 잡아야하는지,, 알고리즘은 어떤걸 해야하는지...왜 특정 모델링에는 성능이 다른지 헷갈린다~.~