History

之江实验室 080cccd85a update tianshu serving and model compress		4 years ago
..
README.md	update tianshu serving and model compress	4 years ago

run_train_lstm.sh	update tianshu serving and model compress	4 years ago

task_lstm.py	update tianshu serving and model compress	4 years ago

task_student_kd_lstm.py	update tianshu serving and model compress	4 years ago

Distilled-BiLSTM

Distilled BiLSTM的教师模型采用微调过的BERT，学生模型采用简单神经网络LSTM。
蒸馏的目标是KD loss，即仅使用软标签进行蒸馏，将BERT中的知识蒸馏到LSTM中。

1. 依赖

完整的环境可以通过以下命令安装：

conda create -n tinybert python=3.6

python3 -m pip install --find-links https://oneflow-inc.github.io/nightly oneflow_cu101 --user

注：以下操作时，根目录为model_compress/distil

如何获取数据请查阅这里

如何微调教师模型请查阅这里

执行以下脚本将教师模型蒸馏到学生模型：

DATA_ROOT: GLUE数据集总路径
dataset: 任务名
FT_BERT_BASE_DIR: 在特定任务上微调过的教师模型路径
STUDENT_DIR: 学生模型保存路径
RESULT_DIR: 测试结果json文件保存路径（如果为RESULT_DIR=""，则默认保存到模型保存路径下，results_eval.json）
SERVE_FOR_ONLINE: 模型是否用于上线（默认SERVE_FOR_ONLINE='False'，如果SERVE_FOR_ONLINE='True'，则删除清理模型保存路径中的无关变量，如教师模型参数和优化器参数等等）

最大序列长度为32，词表大小为10000

bash run_train_student_distilled_lstm.sh

蒸馏过的学生模型下载链接如下（SST-2数据集）:

执行以下脚本进行测试：

bash run_eval_student_distilled_lstm.sh

在SST-2 DEV数据集上:

一站式算法开发平台、高性能分布式深度学习框架、先进算法模型库、视觉模型炼知平台、数据可视化分析平台等一系列平台及工具，在模型高效分布式训练、数据处理和可视分析、模型炼知和轻量化等技术上形成独特优势，目前已在产学研等各领域近千家单位及个人提供AI应用赋能

深度学习大数据处理数据可视化模型分布式训练

Java Vue Python Text JavaScript other

tianshu@zhejianglab.com 864216432@qq.com 1103225671@qq.com yeyue@zhejianglab.com