- メール内の一番最初の改行コードを[SEP]に置換
- メールのタイトルと本文をBERTに区別して入力
- 文頭の"Subject: "は除去しなかった
- Stratified 5-Fold
- models
- BERT
- RoBERTa
- Electra
- 上記3つの出力の平均をとってアンサンブル
- 各層の[CLS]のhidden stateの重み付き平均を出力
- 重みが合計1になるように制約をかけて,訓練可能なパラメータとした
- Google QUEST Q&A Labeling 1st place より
- 各層ごとにlearning rateを設定
- 出力から遠い層ほど小さくなるように設定
- How to Fine-Tune BERT for Text Classification? より
- multi-sample dropout
- Multi-Sample Dropout for Accelerated Training and Better Generalization より
- cosine_schedul_with_warmup
- 出力結果が7838:17000になるように最適化
- SIGNATE Sutudent Cup 2020 より
- タイトル,本文ともにnullであるメール('Subject: \r\n')を0と予測
- 本文中に多く登場した'enron', 'ect', 'hou'をtokenizerの辞書に追加
- XLNet
- もっとしっかりチューニングをすれば効果的だったかもしれない