우리아이 영양 간식

공개된 블로그지만, 아무도 보지 않았으면 하는 블로그

재밌는 글들

빠르게 훑어봄 : Supply-demand Forecasting For a Ride-Hailing System(2017)

iam_sw_ 2021. 7. 16. 21:50

출처 : https://escholarship.org/uc/item/7hr5t5vv

 

Supply-demand Forecasting For a Ride-Hailing System

Author(s): Wang, Runyi | Advisor(s): Regan, Amelia | Abstract: Ride-hailing or Transportation Network Companies (TNCs) such as Uber, Lyft and Didi Chuxing are gaining increasing market share and importance in many transportation markets. To estimate the ef

escholarship.org

 

Supply-demand Forecasting For a Ride-Hailing SystemByRunyi WangMaster in Transportation ScienceUniversity of California, Irvine, 2017

 

과거 : 통계로 접근. 현재 : 머신러닝 ㄱㄱ
제공 데이터 : 주문량, POI, 교통체증, 기상정보 / criteria : MAE 
과거 기법 : 미래 수요를 예측했지만 얼마나 정확한진 제공 X

챕터 3는 모델 소개라서 생략.

자세한 설명에 앞서 개론같은 느낌.

gap = 수요 - 공급, gap =0 가 30% , 만족.

특이하게도 gap 을 예측하도록 설계했다.

과거 데이터를 사용하는게 우리 모델이 학습하는데 도움이 될거란 확신이 없었고(?)

gap을 예측하는데 주요 변수를 확인하면 3시간 앞 gap을 예측하는데 도움이 된다는 결론이 나오기 때문이다.(?)

 

? 내가 뭘 잘못이해했나? 갑자기 3slot ( 30분 ) 후 gap 을 예측하는 것으로 설계했다는 말이 나온다. 이전에 이런 언급이 있었나? 어쨌든.... 계속...

 

피쳐 중요도인데 gap 이 가장 중요, day가 중요( 아마도 주말? ) 지역 정보가 중요( 시간 + 지역 => 수요 피크 ? )

한가지 핵심 결론이 나올것 같다. gap이 커지는 경향에선 미래 gap이 더더욱 더 커진다.

커널 SVM 연산량이 너무 많아서 부트스트래핑한 30개의 앙상블을 했다고 한다. 

참고 : 배깅이란?

https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-11-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-Ensemble-Learning-%EB%B0%B0%EA%B9%85Bagging%EA%B3%BC-%EB%B6%80%EC%8A%A4%ED%8C%85Boosting

싱글 xgboost 결과

결론의 xgboost 성능이 너무 낮은데 뭔가 잘못된거 같다.

대략 gap 4까지가 전체 gap 노출 빈도의 90%는 될 것인데 MAE가 4.63 ??

즉 사실상 90%의 상황에서 제대로 예측을 못한다는 뜻 아닌가 모르겠다.

 

논문을 보고나서 새로 안 사실 : gap이 상승하는 추세면 미래 gap은 더 커질것이다.라는

그런데 EDA가 좀 아쉽다.

내 생각엔 수요는 일시적이고 gap은 특정 시간, 특정 지역에서 치솟다가 다시 감소해서 정상으로 돌아올텐데...