Distilled-BiLSTM

Distilled BiLSTM的教师模型采用微调过的BERT，学生模型采用简单神经网络LSTM。
蒸馏的目标是KD loss，即仅使用软标签进行蒸馏，将BERT中的知识蒸馏到LSTM中。

1. 依赖

完整的环境可以通过以下命令安装：

conda create -n tinybert python=3.6

python3 -m pip install --find-links https://oneflow-inc.github.io/nightly oneflow_cu101 --user

注：以下操作时，根目录为model_compress/distil

如何获取数据请查阅这里

如何微调教师模型请查阅这里

执行以下脚本将教师模型蒸馏到学生模型：

DATA_ROOT: GLUE数据集总路径
dataset: 任务名
FT_BERT_BASE_DIR: 在特定任务上微调过的教师模型路径
STUDENT_DIR: 学生模型保存路径
RESULT_DIR: 测试结果json文件保存路径（如果为RESULT_DIR=""，则默认保存到模型保存路径下，results_eval.json）
SERVE_FOR_ONLINE: 模型是否用于上线（默认SERVE_FOR_ONLINE='False'，如果SERVE_FOR_ONLINE='True'，则删除清理模型保存路径中的无关变量，如教师模型参数和优化器参数等等）

最大序列长度为32，词表大小为10000

bash run_train_student_distilled_lstm.sh

蒸馏过的学生模型下载链接如下（SST-2数据集）:

执行以下脚本进行测试：

bash run_eval_student_distilled_lstm.sh

在SST-2 DEV数据集上: