앞서 여러 모델을 준비했었다.
Basic
V1
V2
V4
실제로 좋은 모델이란 무엇일까?
보편적인 성능 평가 척도인 AUC 가 있을 것이고,
다른 평가 척도인 AUCPR, Recall 등이 있을 것이다.
그러나 현재 회사에서는 전체 테스트 데이터셋을 10개 그룹으로 나누고
Fraud Proba 내림차순으로 정렬한다.
그리고 그 중에서 상위 1~2개 그룹에 대해서만 집중적으로 fraud 검증을 한다.
현실적으로 만약에 5만건의 테스트 데이터가 있다면
모든 5만 건에 대해서 fraud 확인을 할 수 없기 때문이다.
=============
자.. 그래서 새롭게 만든 모델이 얼마나 개선됐는지 평가 척도로,
의심 상위 1~2개 그룹에 대해서 실제 라벨의 존재 퍼센트를 보자.
Basic : 8%
V1 : 8.5%
V2 : 8.5%
V4 : 8.5%
별로 개선되지 않은 모습을 볼 수 있다.
꽤 놀라운 결과이며, 사실 오늘 전에는 미처 고려하지 못했던 부분이다.
===========
모델링을 할때 AUC와 같은 특정 평가 메트릭 기준으로 개선 됐냐/안됐냐만을 따졌기 때문.
실제 비즈니스에서 관심이 있는 부분은 핀트가 달랐던 것이다. ( 이른바, 상위 그룹에서의 정확도 )