Skip to content

tealgreen0503/probspace-spam-mail-competition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

ProbSpace スパムメール判別 6th Place Solution

pre-process

  • メール内の一番最初の改行コードを[SEP]に置換
    • メールのタイトルと本文をBERTに区別して入力
    • 文頭の"Subject: "は除去しなかった

modeling

  • Stratified 5-Fold
  • models
    • BERT
    • RoBERTa
    • Electra
    • 上記3つの出力の平均をとってアンサンブル
  • 各層の[CLS]のhidden stateの重み付き平均を出力
  • 各層ごとにlearning rateを設定
  • multi-sample dropout
  • cosine_schedul_with_warmup

post-process

what did not work

  • 本文中に多く登場した'enron', 'ect', 'hou'をtokenizerの辞書に追加
  • XLNet
    • もっとしっかりチューニングをすれば効果的だったかもしれない

result

Public Score

  • 5位 public score

Private score

  • 6位 private score

About

ProbSpace: スパムメール判別 6th Place Solution

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published