From d8182612196ca17135786153ec29a05451d8dd52 Mon Sep 17 00:00:00 2001 From: yh Date: Wed, 25 Sep 2019 19:37:57 +0800 Subject: [PATCH] =?UTF-8?q?=E4=BF=AE=E6=AD=A3tutorial=E4=B8=AD=E8=8B=A5?= =?UTF-8?q?=E5=B9=B2=E9=97=AE=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../tutorials/tutorial_1_data_preprocess.rst | 9 +-- .../tutorials/tutorial_2_vocabulary.rst | 7 +- .../source/tutorials/tutorial_3_embedding.rst | 18 ++--- .../tutorials/tutorial_5_loss_optimizer.rst | 81 +++++++------------ .../tutorials/tutorial_6_datasetiter.rst | 6 +- .../tutorials/tutorial_8_modules_models.rst | 6 +- .../tutorials/tutorial_9_seq_labeling.rst | 65 ++++++++++++++- 7 files changed, 114 insertions(+), 78 deletions(-) diff --git a/docs/source/tutorials/tutorial_1_data_preprocess.rst b/docs/source/tutorials/tutorial_1_data_preprocess.rst index 6f357df1..005f23f1 100644 --- a/docs/source/tutorials/tutorial_1_data_preprocess.rst +++ b/docs/source/tutorials/tutorial_1_data_preprocess.rst @@ -1,5 +1,5 @@ ============================== -DataSet +fastNLP中的DataSet ============================== :class:`~fastNLP.DataSet` 是fastNLP用于承载数据的类,一般训练集、验证集和测试集会被加载为三个单独的 :class:`~fastNLP.DataSet` 对象。 @@ -16,8 +16,7 @@ DataSet 每一行是一个instance (在fastNLP中被称为 :mod:`~fastNLP.core.Instance` ), 每一列是一个field (在fastNLP中称为 :mod:`~fastNLP.core.FieldArray` )。 ------------------------------ -数据集构建和删除 +DataSet构建和删除 ----------------------------- 我们使用传入字典的方式构建一个数据集,这是 :class:`~fastNLP.DataSet` 初始化的最基础的方式 @@ -93,7 +92,7 @@ FastNLP 同样提供了多种删除数据的方法 :func:`~fastNLP.DataSet.drop` # 删除名为'a'的field dataset.delete_field('a') ------------------------------ + 简单的数据预处理 ----------------------------- @@ -136,7 +135,7 @@ FastNLP 同样提供了多种删除数据的方法 :func:`~fastNLP.DataSet.drop` 除了手动处理数据集之外,你还可以使用 fastNLP 提供的各种 :class:`~fastNLP.io.Loader` 和 :class:`~fastNLP.io.Pipe` 来进行数据处理。 详细请参考这篇教程 :doc:`使用Loader和Pipe处理数据 ` 。 ------------------------------ + fastNLP中field的命名习惯 ----------------------------- diff --git a/docs/source/tutorials/tutorial_2_vocabulary.rst b/docs/source/tutorials/tutorial_2_vocabulary.rst index e5a83fc0..0b26a419 100644 --- a/docs/source/tutorials/tutorial_2_vocabulary.rst +++ b/docs/source/tutorials/tutorial_2_vocabulary.rst @@ -1,10 +1,10 @@ ============================== -Vocabulary +fastNLP中的Vocabulary ============================== :class:`~fastNLP.Vocabulary` 是包含字或词与index关系的类,用于将文本转换为index。 ------------------------------ + 构建Vocabulary ----------------------------- @@ -57,7 +57,6 @@ Vocabulary +---------------------------------------------------+--------+ ------------------------------ 一些使用tips ----------------------------- @@ -86,7 +85,7 @@ Vocabulary vocab.from_dataset(tr_data, field_name='chars', no_create_entry_dataset=[dev_data]) -:class:`~fastNLP.Vocabulary` 中的 `no_create_entry` , 建议在添加来自于测试集和验证集的词的时候将该参数置为True, 或将验证集和测试集 + :class:`~fastNLP.Vocabulary` 中的 `no_create_entry` , 建议在添加来自于测试集和验证集的词的时候将该参数置为True, 或将验证集和测试集 传入 `no_create_entry_dataset` 参数。它们的意义是在接下来的模型会使用pretrain的embedding(包括glove, word2vec, elmo与bert)且会finetune的 情况下,如果仅使用来自于train的数据建立vocabulary,会导致只出现在test与dev中的词语无法充分利用到来自于预训练embedding的信息(因为他们 会被认为是unk),所以在建立词表的时候将test与dev考虑进来会使得最终的结果更好。通过与fastNLP中的各种Embedding配合使用,会有如下的效果, diff --git a/docs/source/tutorials/tutorial_3_embedding.rst b/docs/source/tutorials/tutorial_3_embedding.rst index 521992ec..fd522290 100644 --- a/docs/source/tutorials/tutorial_3_embedding.rst +++ b/docs/source/tutorials/tutorial_3_embedding.rst @@ -17,7 +17,7 @@ - `Part IX: StaticEmbedding的使用建议`_ ---------------------------------------- + Part I: embedding介绍 --------------------------------------- @@ -29,7 +29,7 @@ elmo和character embedding, 需要将word拆分成character才能使用;Bert 大家的使用,fastNLP通过 :class:`~fastNLP.Vocabulary` 统一了不同embedding的使用。下面我们将讲述一些例子来说明一下 ---------------------------------------- + Part II: 使用预训练的静态embedding --------------------------------------- @@ -61,7 +61,7 @@ fastNLP的StaticEmbedding在初始化之后,就和pytorch中的Embedding是类 除了可以通过使用预先提供的Embedding, :class:`~fastNLP.embeddings.StaticEmbedding` 也支持加载本地的预训练词向量,glove, word2vec以及 fasttext格式的。通过将model_dir_or_name修改为本地的embedding文件路径,即可使用本地的embedding。 ---------------------------------------- + Part III: 使用随机初始化的embedding --------------------------------------- @@ -86,7 +86,7 @@ Part III: 使用随机初始化的embedding torch.Size([1, 5, 30]) ------------------------------------------------------------ + Part IV: ELMo Embedding ----------------------------------------------------------- @@ -136,7 +136,7 @@ Part IV: ELMo Embedding torch.Size([1, 5, 256]) ------------------------------------------------------------ + Part V: Bert Embedding ----------------------------------------------------------- @@ -225,7 +225,7 @@ token_type_id将是[0, 0, 0, 1, 1, 1, 0, 0]。但请注意[SEP]一定要大写 .. todo:: 找人写一篇BertEmbedding的使用教程 ------------------------------------------------------ + Part VI: 使用character-level的embedding ----------------------------------------------------- @@ -272,7 +272,7 @@ CNNCharEmbedding的使用例子如下: torch.Size([1, 5, 64]) ------------------------------------------------------ + Part VII: 叠加使用多个embedding ----------------------------------------------------- @@ -304,7 +304,7 @@ Part VII: 叠加使用多个embedding 必须使用同样的 :class:`~fastNLP.Vocabulary` ,因为只有使用同样的 :class:`~fastNLP.Vocabulary` 才能保证同一个index指向的是同一个词或字 ------------------------------------------------------------ + Part VIII: Embedding的其它说明 ----------------------------------------------------------- @@ -352,7 +352,7 @@ fastNLP中所有的Embedding都支持传入word_dropout和dropout参数,word_d 如果使用 :class:`~fastNLP.embeddings.StackEmbedding` 且需要用到word_dropout,建议将word_dropout设置在 :class:`~fastNLP.embeddings.StackEmbedding` 上。 ------------------------------------------------------------ + Part IX: StaticEmbedding的使用建议 ----------------------------------------------------------- diff --git a/docs/source/tutorials/tutorial_5_loss_optimizer.rst b/docs/source/tutorials/tutorial_5_loss_optimizer.rst index a8116224..081fed2e 100644 --- a/docs/source/tutorials/tutorial_5_loss_optimizer.rst +++ b/docs/source/tutorials/tutorial_5_loss_optimizer.rst @@ -5,7 +5,6 @@ 我们使用和 :doc:`/user/quickstart` 中一样的任务来进行详细的介绍。给出一段评价性文字,预测其情感倾向是积极的(label=0)、 还是消极的(label=1),使用 :class:`~fastNLP.Trainer` 和 :class:`~fastNLP.Tester` 来进行快速训练和测试。 ------------------ 数据读入和处理 ----------------- @@ -27,21 +26,21 @@ pipe = SST2Pipe() databundle = pipe.process_from_file() - vocab = databundle.vocabs['words'] + vocab = databundle.get_vocab('words') print(databundle) - print(databundle.datasets['train'][0]) - print(databundle.vocabs['words']) + print(databundle.get_dataset('train')[0]) + print(databundle.get_vocab('words')) 输出数据如下:: - + In total 3 datasets: - test has 1821 instances. - train has 67349 instances. - dev has 872 instances. + test has 1821 instances. + train has 67349 instances. + dev has 872 instances. In total 2 vocabs: - words has 16293 entries. - target has 2 entries. + words has 16293 entries. + target has 2 entries. +-------------------------------------------+--------+--------------------------------------+---------+ | raw_words | target | words | seq_len | @@ -51,16 +50,16 @@ Vocabulary(['hide', 'new', 'secretions', 'from', 'the']...) - 除了可以对数据进行读入的Pipe类,fastNLP还提供了读入和下载数据的Loader类,不同数据集的Pipe和Loader及其用法详见 :doc:`/tutorials/tutorial_4_load_dataset` 。 + 除了可以对数据进行读入的Pipe类,fastNLP还提供了读入和下载数据的Loader类,不同数据集的Pipe和Loader及其用法详见 :doc:` ` 。 数据集分割 由于SST2数据集的测试集并不带有标签数值,故我们分割出一部分训练集作为测试集。下面这段代码展示了 :meth:`~fastNLP.DataSet.split` 的使用方法 .. code-block:: python - train_data = databundle.datasets['train'] + train_data = databundle.get_dataset('train') train_data, test_data = train_data.split(0.015) - dev_data = databundle.datasets['dev'] + dev_data = databundle.get_dataset('dev') print(len(train_data),len(dev_data),len(test_data)) 输出结果为:: @@ -68,14 +67,17 @@ 66339 872 1010 数据集 :meth:`~fastNLP.DataSet.set_input` 和 :meth:`~fastNLP.DataSet.set_target` 函数 - :class:`~fastNLP.io.SST2Pipe` 类的 :meth:`~fastNLP.io.SST2Pipe.process_from_file` 方法在预处理过程中还将训练、测试、验证集的 `words` 、`seq_len` :mod:`~fastNLP.core.field` 设定为input,同时将 `target` :mod:`~fastNLP.core.field` 设定为target。我们可以通过 :class:`~fastNLP.core.Dataset` 类的 :meth:`~fastNLP.core.Dataset.print_field_meta` 方法查看各个 :mod:`~fastNLP.core.field` 的设定情况,代码如下: + :class:`~fastNLP.io.SST2Pipe` 类的 :meth:`~fastNLP.io.SST2Pipe.process_from_file` 方法在预处理过程中还将训练、测试、验证 + 集的 `words` 、`seq_len` :mod:`~fastNLP.core.field` 设定为input,同时将 `target` :mod:`~fastNLP.core.field` 设定 + 为target。我们可以通过 :class:`~fastNLP.core.Dataset` 类的 :meth:`~fastNLP.core.Dataset.print_field_meta` 方法查看各个 + :mod:`~fastNLP.core.field` 的设定情况,代码如下: .. code-block:: python train_data.print_field_meta() 输出结果为:: - + +-------------+-----------+--------+-------+---------+ | field_names | raw_words | target | words | seq_len | +-------------+-----------+--------+-------+---------+ @@ -85,11 +87,14 @@ | pad_value | | 0 | 0 | 0 | +-------------+-----------+--------+-------+---------+ - 其中is_input和is_target分别表示是否为input和target。ignore_type为true时指使用 :class:`~fastNLP.DataSetIter` 取出batch数据时fastNLP不会进行自动padding,pad_value指对应 :mod:`~fastNLP.core.field` padding所用的值,这两者只有当 :mod:`~fastNLP.core.field` 设定为input或者target的时候才有存在的意义。 + 其中is_input和is_target分别表示是否为input和target。ignore_type为true时指使用 :class:`~fastNLP.DataSetIter` 取出batch数 + 据时fastNLP不会进行自动padding,pad_value指对应 :mod:`~fastNLP.core.field` padding所用的值,这两者只有 + 当 :mod:`~fastNLP.core.field` 设定为input或者target的时候才有存在的意义。 - is_input为true的 :mod:`~fastNLP.core.field` 在 :class:`~fastNLP.DataSetIter` 迭代取出的 batch_x 中,而 is_target为true的 :mod:`~fastNLP.core.field` 在 :class:`~fastNLP.DataSetIter` 迭代取出的 batch_y 中。具体分析见 :doc:`/tutorials/tutorial_6_datasetiter` 的DataSetIter初探。 + is_input为true的 :mod:`~fastNLP.core.field` 在 :class:`~fastNLP.DataSetIter` 迭代取出的batch_x 中,而is_target为true + 的 :mod:`~fastNLP.core.field` 在:class:`~fastNLP.DataSetIter` 迭代取出的 batch_y 中。 + 具体分析见 :doc:`使用DataSetIter实现自定义训练过程 ` 。 ---------------------- 使用内置模型训练 --------------------- 模型定义和初始化 @@ -106,7 +111,7 @@ #还可以传入 kernel_nums, kernel_sizes, padding, dropout的自定义值 model_cnn = CNNText((len(vocab),EMBED_DIM), num_classes=2, dropout=0.1) - 使用fastNLP快速搭建自己的模型详见 :doc:`/tutorials/tutorial_8_modules_models` 。 + 使用fastNLP快速搭建自己的模型详见 :doc:`` 。 评价指标 训练模型需要提供一个评价指标。这里使用准确率做为评价指标。 @@ -194,10 +199,10 @@ 训练过程的输出如下:: input fields after batch(if batch size is 2): - words: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2, 16]) - seq_len: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2]) + words: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2, 16]) + seq_len: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2]) target fields after batch(if batch size is 2): - target: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2]) + target: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2]) training epochs started 2019-09-17-14-29-00 @@ -205,37 +210,7 @@ Evaluation on dev at Epoch 1/10. Step:4147/41470: AccuracyMetric: acc=0.762615 - Evaluate data in 0.19 seconds! - Evaluation on dev at Epoch 2/10. Step:8294/41470: - AccuracyMetric: acc=0.800459 - - Evaluate data in 0.16 seconds! - Evaluation on dev at Epoch 3/10. Step:12441/41470: - AccuracyMetric: acc=0.777523 - - Evaluate data in 0.11 seconds! - Evaluation on dev at Epoch 4/10. Step:16588/41470: - AccuracyMetric: acc=0.634174 - - Evaluate data in 0.11 seconds! - Evaluation on dev at Epoch 5/10. Step:20735/41470: - AccuracyMetric: acc=0.791284 - - Evaluate data in 0.15 seconds! - Evaluation on dev at Epoch 6/10. Step:24882/41470: - AccuracyMetric: acc=0.573394 - - Evaluate data in 0.18 seconds! - Evaluation on dev at Epoch 7/10. Step:29029/41470: - AccuracyMetric: acc=0.759174 - - Evaluate data in 0.17 seconds! - Evaluation on dev at Epoch 8/10. Step:33176/41470: - AccuracyMetric: acc=0.776376 - - Evaluate data in 0.18 seconds! - Evaluation on dev at Epoch 9/10. Step:37323/41470: - AccuracyMetric: acc=0.740826 + ... Evaluate data in 0.2 seconds! Evaluation on dev at Epoch 10/10. Step:41470/41470: diff --git a/docs/source/tutorials/tutorial_6_datasetiter.rst b/docs/source/tutorials/tutorial_6_datasetiter.rst index 9ace3b4f..ce256bb8 100644 --- a/docs/source/tutorials/tutorial_6_datasetiter.rst +++ b/docs/source/tutorials/tutorial_6_datasetiter.rst @@ -6,7 +6,7 @@ 还是消极的(label=1),使用 :class:`~fastNLP.DataSetIter` 类来编写自己的训练过程。 DataSetIter初探之前的内容与 :doc:`/tutorials/tutorial_5_loss_optimizer` 中的完全一样,如已经阅读过可以跳过。 --------------------- + 数据读入和预处理 -------------------- @@ -115,7 +115,7 @@ DataSetIter初探之前的内容与 :doc:`/tutorials/tutorial_5_loss_optimizer` # metrics=AccuracyMetric() 在本例中与下面这行代码等价 metrics=AccuracyMetric(pred=Const.OUTPUT, target=Const.TARGET) --------------------------- + DataSetIter初探 -------------------------- @@ -313,7 +313,7 @@ Dataset个性化padding 在这里所有的`words`都被pad成了长度为40的list。 ------------------------------------- + 使用DataSetIter自己编写训练过程 ------------------------------------ 如果你想用类似 PyTorch 的使用方法,自己编写训练过程,可以参考下面这段代码。 diff --git a/docs/source/tutorials/tutorial_8_modules_models.rst b/docs/source/tutorials/tutorial_8_modules_models.rst index 680d75fd..0b26e0bd 100644 --- a/docs/source/tutorials/tutorial_8_modules_models.rst +++ b/docs/source/tutorials/tutorial_8_modules_models.rst @@ -6,7 +6,6 @@ 下面我们会分三节介绍编写构建模型的具体方法。 ----------------------- 使用 models 中的模型 ---------------------- @@ -81,8 +80,9 @@ FastNLP 中内置的 models 如下表所示,您可以点击具体的名称查 :class:`~fastNLP.models.STNLICls` ,用于自然语言推断 (NLI) 的 Star-Transformer 模型 :class:`~fastNLP.models.STSeqCls` , 用于分类任务的 Star-Transformer 模型 :class:`~fastNLP.models.BiaffineParser` , Biaffine 依存句法分析网络的实现 + :class:`~fastNLP.models.BiLSTMCRF`, 使用BiLSTM与CRF进行序列标注 + ----------------------------- 使用 nn.torch 编写模型 ---------------------------- @@ -137,7 +137,7 @@ FastNLP 完全支持使用 pyTorch 编写的模型,但与 pyTorch 中编写模 (dropout): Dropout(p=0.5) ) ----------------------------- + 使用 modules 编写模型 ---------------------------- diff --git a/docs/source/tutorials/tutorial_9_seq_labeling.rst b/docs/source/tutorials/tutorial_9_seq_labeling.rst index b92705d3..f9f6ef77 100644 --- a/docs/source/tutorials/tutorial_9_seq_labeling.rst +++ b/docs/source/tutorials/tutorial_9_seq_labeling.rst @@ -73,7 +73,7 @@ fastNLP的数据载入主要是由Loader与Pipe两个基类衔接完成的,您 from fastNLP import LossInForward metric = SpanFPreRecMetric(tag_vocab=data_bundle.get_vocab('target')) - optimizer = Adam(model.parameters(), lr=1e-4) + optimizer = Adam(model.parameters(), lr=1e-2) loss = LossInForward() 使用Trainer进行训练 @@ -122,3 +122,66 @@ fastNLP的数据载入主要是由Loader与Pipe两个基类衔接完成的,您 tester = Tester(data_bundle.get_dataset('test'), model, metrics=metric) tester.test() + +输出为:: + + [tester] + SpanFPreRecMetric: f=0.482399, pre=0.530086, rec=0.442584 + + +使用更强的Bert做序列标注 +-------------------------------- + +在fastNLP使用Bert进行任务,您只需要切换为 :class:`fastNLP.embeddings.BertEmbedding` 即可。 + +.. code-block:: python + + from fastNLP.io import WeiboNERPipe + data_bundle = WeiboNERPipe().process_from_file() + data_bundle.rename_field('chars', 'words') + + from fastNLP.embeddings import BertEmbedding + embed = BertEmbedding(vocab=data_bundle.get_vocab('words'), model_dir_or_name='cn') + model = BiLSTMCRF(embed=embed, num_classes=len(data_bundle.get_vocab('target')), num_layers=1, hidden_size=200, dropout=0.5, + target_vocab=data_bundle.get_vocab('target')) + + from fastNLP import SpanFPreRecMetric + from torch import Adam + from fastNLP import LossInForward + metric = SpanFPreRecMetric(tag_vocab=data_bundle.get_vocab('target')) + optimizer = Adam(model.parameters(), lr=2e-5) + loss = LossInForward() + + from fastNLP import Trainer + import torch + device= 0 if torch.cuda.is_available() else 'cpu' + trainer = Trainer(data_bundle.get_dataset('train'), model, loss=loss, optimizer=optimizer, batch_size=12, + dev_data=data_bundle.get_dataset('dev'), metrics=metric, device=device) + trainer.train() + + from fastNLP import Tester + tester = Tester(data_bundle.get_dataset('test'), model, metrics=metric) + tester.test() + +输出为:: + + training epochs started 2019-09-25-07-15-43 + Evaluate data in 2.02 seconds! + Evaluation on dev at Epoch 1/10. Step:113/1130: + SpanFPreRecMetric: f=0.0, pre=0.0, rec=0.0 + + ... + + Evaluate data in 2.17 seconds! + Evaluation on dev at Epoch 10/10. Step:1130/1130: + SpanFPreRecMetric: f=0.647332, pre=0.589852, rec=0.717224 + + In Epoch:6/Step:678, got best dev performance: + SpanFPreRecMetric: f=0.669963, pre=0.645238, rec=0.696658 + Reloaded the best model. + + Evaluate data in 1.82 seconds! + [tester] + SpanFPreRecMetric: f=0.641774, pre=0.626424, rec=0.657895 + +可以看出通过使用Bert,效果有明显的提升,从48.2提升到了64.1。 \ No newline at end of file