Tabular Data: Deep Learning is Not All You Need
https://arxiv.org/abs/2106.03253
Tabular Data: Deep Learning is Not All You Need
A key element of AutoML systems is setting the types of models that will be used for each type of task. For classification and regression problems with tabular data, the use of tree ensemble models (like XGBoost) is usually recommended. However, several de
arxiv.org
초록 :
AutoML 시스템의 핵심 요소는 각 작업 유형에 사용할 모델 유형을 설정하는 것입니다. 테이블 형식 데이터의 분류 및 회귀 문제의 경우 일반적으로 트리 앙상블 모델(예: XGBoost)을 사용하는 것이 좋습니다. 그러나 여러 딥 러닝 일부 사용 사례에서 XGBoost보다 성능이 우수하다고 주장하는 테이블 형식 데이터에 대한 모델이 최근에 제안되었습니다.이 문서에서는 다양한 모델에서 새로운 심층 모델을 XGBoost와 엄격하게 비교하여 이러한 심층 모델이 테이블 형식 데이터에 대해 권장되는 옵션이어야 하는지 여부를 조사합니다. 데이터 세트의 정확도를 체계적으로 비교하는 것 외에도 필요한 조정 및 계산을 고려합니다. 우리 연구는 XGBoost가 심층 모델을 제안한 논문에서 사용된 데이터 세트를 포함하여 데이터 세트 전체에서 이러한 심층 모델보다 성능이 우수함을 보여줍니다. 또한 XGBoost가 훨씬 적은 튜닝이 필요합니다. 긍정적인 측면에서 우리는 심층 모델과 XGBoost의 앙상블이 XGBoost alo보다 이러한 데이터 세트에서 더 잘 수행함을 보여줍니다.
핵심 :
Deep Neural Models for Tabular Data Among the recently proposed deep models for learning from tabular data, we examine the following:
TabNet (Arik and Pfister, 2019),
TabNet은 여러 데이터 세트에서 잘 수행된 딥 러닝 종단 간 모델입니다(Arik and Pfister, 2019) 인코더에서 순차적 결정 단계는 희소 학습된 마스크를 사용하여 기능을 인코딩하고 마스크를 사용하여 관련 기능을 선택합니다(주의). sparsemax 레이어를 사용하여 인코더는 작은 기능 세트를 강제로 선택합니다. 학습 마스크의 장점은 기능이 전부 아니면 전무일 필요가 없다는 것입니다. 기능에 대한 하드 임계값을 사용하는 대신 학습 가능한 마스크는 부드러운 결정을 내림으로써 고전적인(미분할 수 없는) 특징 선택 방법의 완화를 제공합니다.
NODE (Popov et al., 2019),
NODE 네트워크(Popov et al., 2019)에는 오차 기울기가 이를 통해 역전파될 수 있도록 미분할 수 있는 동일 깊이 ODT(Oblivious Decision Trees)가 포함되어 있습니다. ODT는 기능을 따라 데이터를 분할하고 각각을 학습 가능한 임계값과 비교합니다. 기능은 각 수준에서 선택되어 균형 잡힌 ODT를 생성합니다.완전한 모델은 미분 가능한 트리의 앙상블을 제공합니다.
DNF-Net (Abutbul et al., 2020)
DNF-Net(Abutbul et al., 2020) 이면의 아이디어는 DNN에서 disjunctive normal 공식(DNF)을 시뮬레이션하는 것입니다. 저자는 hard Boolean 공식을 부드럽고 미분 가능한 버전으로 교체할 것을 제안했습니다. 이 모델의 핵심 기능은 (1) 완전 연결 계층 (2) 리터럴에 대한 이진 연결의 소프트 버전으로 형성된 DNNF 계층 완전한 모델은 이러한 DNNF의 앙상블입니다.
and 1D-CNN (Baosenguo, 2021).
최근 1D-CNN은 테이블 형식의 데이터를 사용한 Kaggle 경쟁에서 최고의 단일 모델 성능을 달성했습니다(Baosenguo, 2021).
그러나 테이블형 데이터에는 잘 쓰이지 않는데, 그 이유는
기능 순서에는 지역 특성이 없기 때문에 이 모델에서 FC 레이어는 지역 특성을 가진 더 큰 기능 세트를 생성하는 데 사용되며 바로 가기와 같은 연결이 있는 여러 1D-Conv 레이어가 뒤따릅니다.
because the feature ordering has no locality characteristics. In this model, an FC layer is used to create a larger set of features with locality characteristics, and it is followed by several 1D-Conv layers with shortcut-like connections.
앙상블
앙상블 학습은 여러 모델을 훈련하고 예측을 결합하여 정확도를 높이고 분산을 줄이는 잘 알려진 방법입니다. 앙상블에는 TabNet, NODE, DNF-Net, 1D-CNN 및 XGBoost의 다섯 가지 분류기가 포함됩니다. 단일 훈련된 모델 예측의 가중 평균을 사용하는 실제 앙상블 상대 가중치는 각 모델의 정규화된 검증 손실에 의해 간단하게 정의됩니다.
Ensemble learning is a well-known method for improving accuracy and reducing variance through training multiple models and combining their predictions. Our ensemble includes five different classifiers: TabNet, NODE, DNF-Net, 1D-CNN, and XGBoost. We construct a simple and practical ensemble using a weighted average of the single trained models predictions. The relative weights are defined simply by the normalized validation loss of each model. Note that some of the models above have some form of ensemble built into their design. However, these are ensembles of the same basic models with different parameters, not of different types of models.
중간 결과
In most cases, the models perform worse on unseen datasets than do the datasets’ original models.
• The XGBoost model generally outperformed the deep models.
• No deep model consistently outperformed the others. The 1D-CNN model performance may seem to perform better, since all the datasets were new for it.
• The ensemble of deep models and XGBoost outperforms the other models in most cases.
최종 결론
단일 모델로 항상 꾸준히 1등인 모델은 없었다. ( 공짜 점심은 없는 것인가? )새로운 데이터셋에 대해선 XGBOOST 가 이기기도 했다. 그러나 여러 데이터셋에서 XGBOOST 와 앙상블된 딥러닝 모델이 여러번 최고 성능을 냈다.
여기서 쓰인 앙상블은 weighted blending 인 것 같다.
후기
TabNet 만 알고 NODE나 DSF Net, 1-D CNN은 몰랐는데 한번 찾아봐야겠다.