add dataloader register

7 years ago · 267baec224
--- a/fastNLP/core/init.py
+++ b/fastNLP/core/init.py
@@ -1,5 +1,5 @@
 from .batch import Batch
 from .dataset import DataSet
 # from .dataset import DataSet
 from .fieldarray import FieldArray
 from .instance import Instance
 from .losses import LossFunc, CrossEntropyLoss, L1Loss, BCELoss, NLLLoss, LossInForward
@@ -8,4 +8,6 @@ from .optimizer import Optimizer, SGD, Adam
 from .sampler import SequentialSampler, BucketSampler, RandomSampler, BaseSampler
 from .tester import Tester
 from .trainer import Trainer
 from .vocabulary import Vocabulary
 from .vocabulary import Vocabulary
 from ..io.dataset_loader import DataSet
--- a/fastNLP/core/dataset.py
+++ b/fastNLP/core/dataset.py
@@ -5,8 +5,7 @@ import numpy as np
 from fastNLP.core.fieldarray import FieldArray
 from fastNLP.core.instance import Instance
 from fastNLP.core.utils import get_func_signature
 _READERS = {}
 from fastNLP.io.base_loader import DataLoaderRegister
 class DataSet(object):
@@ -98,6 +97,24 @@ class DataSet(object):
        else:
            raise KeyError("Unrecognized type {} for idx in __getitem__ method".format(type(idx)))
    def __getattr__(self, item):
        if item == "field_arrays":
            raise AttributeError
        # TODO dataset.x
        if item in self.field_arrays:
            return self.field_arrays[item]
        try:
            reader = DataLoaderRegister.get_reader(item)
            return reader
        except AttributeError:
            raise
    def __setstate__(self, state):
        self.__dict__ = state
    def __getstate__(self):
        return self.__dict__
    def __len__(self):
        """Fetch the length of the dataset.
@@ -226,16 +243,6 @@ class DataSet(object):
        """
        return [name for name, field in self.field_arrays.items() if field.is_target]
    @classmethod
    def set_reader(cls, method_name):
        assert isinstance(method_name, str)
        def wrapper(read_cls):
            _READERS[method_name] = read_cls
            return read_cls
        return wrapper
    def apply(self, func, new_field_name=None, **kwargs):
        """Apply a function to every instance of the DataSet.
@@ -347,6 +354,9 @@ class DataSet(object):
                    _dict[header].append(content)
        return cls(_dict)
    # def read_pos(self):
    #     return DataLoaderRegister.get_reader('read_pos')
    def save(self, path):
        """Save the DataSet object as pickle.
--- a/fastNLP/core/trainer.py
+++ b/fastNLP/core/trainer.py
@@ -85,8 +85,8 @@ class Trainer(object):
        if metric_key is not None:
            self.increase_better = False if metric_key[0] == "-" else True
            self.metric_key = metric_key[1:] if metric_key[0] == "+" or metric_key[0] == "-" else metric_key
        else:
            self.metric_key = None
        elif metrics is not None:
            self.metric_key = metrics[0].__class__.__name__.lower().strip('metric')
        # prepare loss
        losser = _prepare_losser(loss)
@@ -147,7 +147,7 @@ class Trainer(object):
            self._mode(self.model, is_test=False)
            self.start_time = str(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
            self.start_time = str(datetime.now().strftime('%Y-%m-%d %H-%M-%S'))
            print("training epochs started " + self.start_time, flush=True)
            if self.save_path is None:
                class psudoSW:
@@ -260,7 +260,7 @@ class Trainer(object):
                self._summary_writer.add_scalar("valid_{}_{}".format(name, metric_key), metric_val,
                                                global_step=self.step)
        if self.save_path is not None and self._better_eval_result(res):
            metric_key = self.metric_key if self.metric_key is not None else "None"
            metric_key = self.metric_key if self.metric_key is not None else ""
            self._save_model(self.model,
                             "best_" + "_".join([self.model.__class__.__name__, metric_key, self.start_time]))
        return res
--- a/fastNLP/io/base_loader.py
+++ b/fastNLP/io/base_loader.py
@@ -29,3 +29,39 @@ class BaseLoader(object):
            with open(cache_path, 'wb') as f:
                pickle.dump(obj, f)
            return obj
 class ToyLoader0(BaseLoader):
    """
        For CharLM
    """
    def __init__(self, data_path):
        super(ToyLoader0, self).__init__(data_path)
    def load(self):
        with open(self.data_path, 'r') as f:
            corpus = f.read().lower()
        import re
        corpus = re.sub(r"<unk>", "unk", corpus)
        return corpus.split()
 class DataLoaderRegister:
    """"register for data sets"""
    _readers = {}
    @classmethod
    def set_reader(cls, reader_cls, read_fn_name):
        # def wrapper(reader_cls):
        if read_fn_name in cls._readers:
            raise KeyError('duplicate reader: {} and {} for read_func: {}'.format(cls._readers[read_fn_name], reader_cls, read_fn_name))
        if hasattr(reader_cls, 'load'):
            cls._readers[read_fn_name] = reader_cls().load
        return reader_cls
    @classmethod
    def get_reader(cls, read_fn_name):
        if read_fn_name in cls._readers:
            return cls._readers[read_fn_name]
        raise AttributeError('no read function: {}'.format(read_fn_name))
--- a/fastNLP/io/dataset_loader.py
+++ b/fastNLP/io/dataset_loader.py
@@ -2,7 +2,7 @@ import os
 from fastNLP.core.dataset import DataSet
 from fastNLP.core.instance import Instance
 from fastNLP.io.base_loader import BaseLoader
 from fastNLP.io.base_loader import DataLoaderRegister
 def convert_seq_dataset(data):
@@ -61,12 +61,9 @@ def convert_seq2seq_dataset(data):
    return dataset
 class DataSetLoader(BaseLoader):
 class DataSetLoader:
    """"loader for data sets"""
    def __init__(self):
        super(DataSetLoader, self).__init__()
    def load(self, path):
        """ load data in `path` into a dataset
        """
@@ -104,9 +101,9 @@ class RawDataSetLoader(DataSetLoader):
    def convert(self, data):
        return convert_seq_dataset(data)
 DataLoaderRegister.set_reader(RawDataSetLoader, 'read_rawdata')
@DataSet.set_reader('read_pos')
 class POSDataSetLoader(DataSetLoader):
    """Dataset Loader for POS Tag datasets.
@@ -174,9 +171,9 @@ class POSDataSetLoader(DataSetLoader):
        """Convert lists of strings into Instances with Fields.
        """
        return convert_seq2seq_dataset(data)
 DataLoaderRegister.set_reader(POSDataSetLoader, 'read_pos')
@DataSet.set_reader('read_tokenize')
 class TokenizeDataSetLoader(DataSetLoader):
    """
    Data set loader for tokenization data sets
@@ -236,7 +233,6 @@ class TokenizeDataSetLoader(DataSetLoader):
        return convert_seq2seq_dataset(data)
@DataSet.set_reader('read_class')
 class ClassDataSetLoader(DataSetLoader):
    """Loader for classification data sets"""
@@ -275,6 +271,83 @@ class ClassDataSetLoader(DataSetLoader):
        return convert_seq2tag_dataset(data)
 class ConllLoader(DataSetLoader):
    """loader for conll format files"""
    def __init__(self):
        """
        :param str data_path: the path to the conll data set
        """
        super(ConllLoader, self).__init__()
    def load(self, data_path):
        """
        :return: list lines: all lines in a conll file
        """
        with open(data_path, "r", encoding="utf-8") as f:
            lines = f.readlines()
        data = self.parse(lines)
        return self.convert(data)
    @staticmethod
    def parse(lines):
        """
        :param list lines:a list containing all lines in a conll file.
        :return: a 3D list
        """
        sentences = list()
        tokens = list()
        for line in lines:
            if line[0] == "#":
                # skip the comments
                continue
            if line == "\n":
                sentences.append(tokens)
                tokens = []
                continue
            tokens.append(line.split())
        return sentences
    def convert(self, data):
        pass
 class LMDataSetLoader(DataSetLoader):
    """Language Model Dataset Loader
        This loader produces data for language model training in a supervised way.
        That means it has X and Y.
    """
    def __init__(self):
        super(LMDataSetLoader, self).__init__()
    def load(self, data_path):
        if not os.path.exists(data_path):
            raise FileNotFoundError("file {} not found.".format(data_path))
        with open(data_path, "r", encoding="utf=8") as f:
            text = " ".join(f.readlines())
        tokens = text.strip().split()
        data = self.sentence_cut(tokens)
        return self.convert(data)
    def sentence_cut(self, tokens, sentence_length=15):
        start_idx = 0
        data_set = []
        for idx in range(len(tokens) // sentence_length):
            x = tokens[start_idx * idx: start_idx * idx + sentence_length]
            y = tokens[start_idx * idx + 1: start_idx * idx + sentence_length + 1]
            if start_idx * idx + sentence_length + 1 >= len(tokens):
                # ad hoc
                y.extend(["<unk>"])
            data_set.append([x, y])
        return data_set
    def convert(self, data):
        pass
@DataSet.set_reader('read_people_daily')
 class PeopleDailyCorpusLoader(DataSetLoader):
    """