출처 : https://escholarship.org/uc/item/7hr5t5vv
Supply-demand Forecasting For a Ride-Hailing System
Author(s): Wang, Runyi | Advisor(s): Regan, Amelia | Abstract: Ride-hailing or Transportation Network Companies (TNCs) such as Uber, Lyft and Didi Chuxing are gaining increasing market share and importance in many transportation markets. To estimate the ef
escholarship.org
Supply-demand Forecasting For a Ride-Hailing SystemByRunyi WangMaster in Transportation ScienceUniversity of California, Irvine, 2017
챕터 3는 모델 소개라서 생략.
자세한 설명에 앞서 개론같은 느낌.
gap = 수요 - 공급, gap =0 가 30% , 만족.
특이하게도 gap 을 예측하도록 설계했다.
과거 데이터를 사용하는게 우리 모델이 학습하는데 도움이 될거란 확신이 없었고(?)
gap을 예측하는데 주요 변수를 확인하면 3시간 앞 gap을 예측하는데 도움이 된다는 결론이 나오기 때문이다.(?)
? 내가 뭘 잘못이해했나? 갑자기 3slot ( 30분 ) 후 gap 을 예측하는 것으로 설계했다는 말이 나온다. 이전에 이런 언급이 있었나? 어쨌든.... 계속...
피쳐 중요도인데 gap 이 가장 중요, day가 중요( 아마도 주말? ) 지역 정보가 중요( 시간 + 지역 => 수요 피크 ? )
한가지 핵심 결론이 나올것 같다. gap이 커지는 경향에선 미래 gap이 더더욱 더 커진다.
커널 SVM 연산량이 너무 많아서 부트스트래핑한 30개의 앙상블을 했다고 한다.
참고 : 배깅이란?
싱글 xgboost 결과
결론의 xgboost 성능이 너무 낮은데 뭔가 잘못된거 같다.
대략 gap 4까지가 전체 gap 노출 빈도의 90%는 될 것인데 MAE가 4.63 ??
즉 사실상 90%의 상황에서 제대로 예측을 못한다는 뜻 아닌가 모르겠다.
논문을 보고나서 새로 안 사실 : gap이 상승하는 추세면 미래 gap은 더 커질것이다.라는
그런데 EDA가 좀 아쉽다.
내 생각엔 수요는 일시적이고 gap은 특정 시간, 특정 지역에서 치솟다가 다시 감소해서 정상으로 돌아올텐데...