[전용준. 리비젼컨설팅]
머신러닝 예측모델링의 전제와 가정
머신러닝 예측모델이 맞지 않는 이유는 데이터, 알고리즘,
예측 대상 설정 중 어딘가가 잘못되어 있기 때문.
그렇다면, Data와 Algorithm 중 어디를 고치는 것이 더 중요할 것인가?
머신러닝 예측모델의 전제와 가정
(Impicit Assumptions?)
[1] 과거가 미래의 척도가 된다
[2] 분석에 필요한 데이터가 존재한다
[3] 데이터가 예측하려는 내용을 담고 있다
이 전제사항들 중 무언가가 성립하지 않는다면 정확한 예측을 할 수 있는 모델이 만들어질 수 있겠는가?
[유튜브 영상 : TUTORIAL]
검토한다고 해보았으나,
가정이 성립하는지에 대한 판단이 어렵다면?
전제사항이 부분적으로만 충족된다면?
어쩌면 예측모델링이 무의미하거나, 예측모델링이 불가능한 상황일 수 도 있다.
그러한 상황에서라면 억지로 모델을 만든다고해봐야 아무런 쓸모가 없을 것이다.
머신러닝 예측 모델링 : 타겟 변수 정의 [1]
머신러닝 예측모델이 작동 자체도 될 수 없는 경우가 발생하는 가장 대표적인 이유는
예측 대상(Y)을 잘못 설정했기 때문.
그렇다면, Y를 어떻게 설정해야 할 것인가?
[Rule #1]
X는 과거에서 Y는 미래에서 온다
- 예측모델링의 용도는 미래에 대한 예측
- 이미 벌어진 상황의 설명이 아님
- 다음 시점에 다음 미래 계산 필요
같은 기간에 X와 Y를 두고 데이터를 사용해서
예측모델링(회귀분석이든 딥러닝이든)을 한다?
"날씨 검색 많은 기간일수록 미세먼지 검색이 적다"
이런 식이라면 예측은 작동되지 않는다.
전용준. 리비젼컨설팅. 2019.
[#머신러닝 #예측모델링 #전용준 #리비젼컨설팅]
[ 유튜브 영상 ]
[전용준. 리비젼컨설팅. 예측모델링. 머신러닝. 빅데이터. 알고리즘. 예측모델 설계]