add train

6 years ago · 58ddc2d267
--- a/model_inplement/.gitignore
+++ b/model_inplement/.gitignore
@@ -0,0 +1 @@
 *.pyc
--- a/model_inplement/code/pycache/model.cpython-36.pyc
+++ b/model_inplement/code/pycache/model.cpython-36.pyc
--- a/model_inplement/code/model.py
+++ b/model_inplement/code/model.py
@@ -20,16 +20,20 @@ class HAN(nn.Module):
                                    sent_num_layers, 
                                    sent_context_size)
        self.output_layer = nn.Linear(2* sent_hidden_size, output_size)
        self.softmax = nn.Softmax()
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, doc):
    def forward(self, batch_doc):
        # input is a sequence of vector
        # if level == w, a seq of words (a sent); level == s, a seq of sents (a doc)
        s_list = []
        for sent in doc:
            s_list.append(self.word_layer(sent))
        s_vec = torch.cat(s_list, dim=1).t()
        doc_vec = self.sent_layer(s_vec)
        doc_vec_list = []
        for doc in batch_doc:
            s_list = []
            for sent in doc:
                s_list.append(self.word_layer(sent))
            s_vec = torch.cat(s_list, dim=0)
            vec = self.sent_layer(s_vec)
            doc_vec_list.append(vec)
        doc_vec = torch.cat(doc_vec_list, dim=0)
        output = self.softmax(self.output_layer(doc_vec))
        return output

@@ -51,7 +55,7 @@ class AttentionNet(nn.Module):
        # Attention
        self.fc = nn.Linear(2* gru_hidden_size, context_vec_size)
        self.tanh = nn.Tanh()
        self.softmax = nn.Softmax()
        self.softmax = nn.Softmax(dim=0)
        # context vector
        self.context_vec = nn.Parameter(torch.Tensor(context_vec_size, 1))
        self.context_vec.data.uniform_(-0.1, 0.1)
@@ -63,47 +67,8 @@ class AttentionNet(nn.Module):
        h_t = torch.squeeze(h_t, 1)
        u = self.tanh(self.fc(h_t))
        alpha = self.softmax(torch.mm(u, self.context_vec))
        output = torch.mm(h_t.t(), alpha)
        # output's dim (2*hidden_size, 1)
        output = torch.mm(h_t.t(), alpha).t()
        # output's dim (1, 2*hidden_size)
        return output


 '''
 Train process
 '''
 import math
 import os
 import copy
 import pickle

 import matplotlib.pyplot as plt
 import matplotlib.ticker as ticker
 import numpy as np
 import json
 import nltk

 optimizer = torch.optim.SGD(lr=0.01)
 criterion = nn.NLLLoss()
 epoch = 1
 batch_size = 10

 net = HAN(input_size=100, output_size=5, 
        word_hidden_size=50, word_num_layers=1, word_context_size=100,
        sent_hidden_size=50, sent_num_layers=1, sent_context_size=100)

 def dataloader(filename):
    samples = pickle.load(open(filename, 'rb'))
    return samples

 def gen_doc(text):
    pass

 class SampleDoc:
    def __init__(self, doc, label):
        self.doc = doc
        self.label = label

    def __iter__(self):
        for sent in self.doc:
            for word in sent:

--- a/model_inplement/code/train.py
+++ b/model_inplement/code/train.py
@@ -0,0 +1,138 @@
 import gensim
 from gensim import models

 import os
 import pickle
            
 class SampleIter:
    def __init__(self, dirname):
        self.dirname = dirname
    
    def __iter__(self):
        for f in os.listdir(self.dirname):
            for y, x in pickle.load(open(os.path.join(self.dirname, f), 'rb')):
                yield x, y

 class SentIter:
    def __init__(self, dirname, count):
        self.dirname = dirname
        self.count = int(count)
    
    def __iter__(self):
        for f in os.listdir(self.dirname)[:self.count]:
            for y, x in pickle.load(open(os.path.join(self.dirname, f), 'rb')):
                for sent in x:
                    yield sent

 def train_word_vec():
    # load data
    dirname = 'reviews'
    sents = SentIter(dirname, 238)
    # define model and train
    model = models.Word2Vec(sentences=sents, size=200, sg=0, workers=4, min_count=5)
    model.save('yelp.word2vec')


 '''
 Train process
 '''
 import math
 import os
 import copy
 import pickle

 import matplotlib.pyplot as plt
 import matplotlib.ticker as ticker
 import numpy as np
 import json
 import nltk
 from gensim.models import Word2Vec
 import torch
 from torch.utils.data import DataLoader, Dataset

 from model import *

 net = HAN(input_size=200, output_size=5, 
        word_hidden_size=50, word_num_layers=1, word_context_size=100,
        sent_hidden_size=50, sent_num_layers=1, sent_context_size=100)

 optimizer = torch.optim.SGD(net.parameters(), lr=0.01)
 criterion = nn.NLLLoss()
 num_epoch = 1
 batch_size = 64

 class Embedding_layer:
    def __init__(self, wv, vector_size):
        self.wv = wv
        self.vector_size = vector_size

    def get_vec(self, w):
        try:
            v = self.wv[w]
        except KeyError as e:
            v = np.zeros(self.vector_size)
        return v

 embed_model = Word2Vec.load('yelp.word2vec')
 embedding = Embedding_layer(embed_model.wv, embed_model.wv.vector_size)
 del embed_model

 class YelpDocSet(Dataset):
    def __init__(self, dirname, num_files, embedding):
        self.dirname = dirname
        self.num_files = num_files
        self._len = num_files*5000
        self._files = os.listdir(dirname)[:num_files]
        self.embedding = embedding
    
    def __len__(self):
        return self._len

    def __getitem__(self, n):
        file_id = n // 5000
        sample_list = pickle.load(open(
                os.path.join(self.dirname, self._files[file_id]), 'rb'))
        y, x = sample_list[n % 5000]
        return x, y-1

 def collate(iterable):
    y_list = []
    x_list = []
    for x, y in iterable:
        y_list.append(y)
        x_list.append(x)
    return x_list, torch.LongTensor(y_list)

 if __name__ == '__main__':
    dirname = 'reviews'
    dataloader = DataLoader(YelpDocSet(dirname, 238, embedding), batch_size=batch_size, collate_fn=collate)
    running_loss = 0.0
    print_size = 10

    for epoch in range(num_epoch):
        for i, batch_samples in enumerate(dataloader):
            x, y = batch_samples
            doc_list = []
            for sample in x:
                doc = []
                for sent in sample:
                    sent_vec = []
                    for word in sent:
                        vec = embedding.get_vec(word)
                        sent_vec.append(torch.Tensor(vec.reshape((1, -1))))
                    sent_vec = torch.cat(sent_vec, dim=0)
                    # print(sent_vec.size())
                    doc.append(Variable(sent_vec))
                doc_list.append(doc)
            y = Variable(y)
            predict = net(doc_list)
            loss = criterion(predict, y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            running_loss += loss.data[0]
            print(loss.data[0])
            if i % print_size == print_size-1:
                print(running_loss/print_size)
                running_loss = 0.0