08-23 회고 : 의심 상위 그룹에서의 성능

카테고리 없음

iam_sw_ 2021. 8. 23. 22:59

앞서 여러 모델을 준비했었다.

Basic

실제로 좋은 모델이란 무엇일까?

보편적인 성능 평가 척도인 AUC 가 있을 것이고,

다른 평가 척도인 AUCPR, Recall 등이 있을 것이다.

그러나 현재 회사에서는 전체 테스트 데이터셋을 10개 그룹으로 나누고

Fraud Proba 내림차순으로 정렬한다.

그리고 그 중에서 상위 1~2개 그룹에 대해서만 집중적으로 fraud 검증을 한다.

현실적으로 만약에 5만건의 테스트 데이터가 있다면

모든 5만 건에 대해서 fraud 확인을 할 수 없기 때문이다.

=============

자.. 그래서 새롭게 만든 모델이 얼마나 개선됐는지 평가 척도로,

의심 상위 1~2개 그룹에 대해서 실제 라벨의 존재 퍼센트를 보자.

Basic : 8%

V1 : 8.5%

V2 : 8.5%

V4 : 8.5%

별로 개선되지 않은 모습을 볼 수 있다.

꽤 놀라운 결과이며, 사실 오늘 전에는 미처 고려하지 못했던 부분이다.

===========

모델링을 할때 AUC와 같은 특정 평가 메트릭 기준으로 개선 됐냐/안됐냐만을 따졌기 때문.

실제 비즈니스에서 관심이 있는 부분은 핀트가 달랐던 것이다. ( 이른바, 상위 그룹에서의 정확도 )

머신러닝 재밌는 깃헙들

티스토리툴바