tokenize data

7 years ago · 544ca8631b
--- a/model_inplement/code/pycache/model.cpython-36.pyc
+++ b/model_inplement/code/pycache/model.cpython-36.pyc
--- a/model_inplement/code/model.py
+++ b/model_inplement/code/model.py
@@ -22,19 +22,16 @@ class HAN(nn.Module):
        self.output_layer = nn.Linear(2* sent_hidden_size, output_size)
        self.softmax = nn.Softmax()

    def forward(self, x, level='w'):
    def forward(self, doc):
        # input is a sequence of vector
        # if level == w, a seq of words (a sent); level == s, a seq of sents (a doc)
        if level == 's':
            v = self.sent_layer(x)
            output = self.softmax(self.output_layer(v))
            return output
        elif level == 'w':
            s = self.word_layer(x)
            return s
        else:
            print('unknow level in Parameter!')

        s_list = []
        for sent in doc:
            s_list.append(self.word_layer(sent))
        s_vec = torch.cat(s_list, dim=1).t()
        doc_vec = self.sent_layer(s_vec)
        output = self.softmax(self.output_layer(doc_vec))
        return output

 class AttentionNet(nn.Module):
    def __init__(self, input_size, gru_hidden_size, gru_num_layers, context_vec_size):
@@ -60,11 +57,53 @@ class AttentionNet(nn.Module):
        self.context_vec.data.uniform_(-0.1, 0.1)

    def forward(self, inputs):
        # inputs's dim seq_len*word_dim
        # inputs's dim (seq_len, word_dim)
        inputs = torch.unsqueeze(inputs, 1)
        h_t, hidden = self.gru(inputs)
        h_t = torch.squeeze(h_t, 1)
        u = self.tanh(self.fc(h_t))
        alpha = self.softmax(torch.mm(u, self.context_vec))
        output = torch.mm(h_t.t(), alpha)
        # output's dim (2*hidden_size, 1)
        return output


 '''
 Train process
 '''
 import math
 import os
 import copy
 import pickle

 import matplotlib.pyplot as plt
 import matplotlib.ticker as ticker
 import numpy as np
 import json
 import nltk

 optimizer = torch.optim.SGD(lr=0.01)
 criterion = nn.NLLLoss()
 epoch = 1
 batch_size = 10

 net = HAN(input_size=100, output_size=5, 
        word_hidden_size=50, word_num_layers=1, word_context_size=100,
        sent_hidden_size=50, sent_num_layers=1, sent_context_size=100)

 def dataloader(filename):
    samples = pickle.load(open(filename, 'rb'))
    return samples

 def gen_doc(text):
    pass

 class SampleDoc:
    def __init__(self, doc, label):
        self.doc = doc
        self.label = label

    def __iter__(self):
        for sent in self.doc:
            for word in sent:

--- a/model_inplement/code/preprocess.py
+++ b/model_inplement/code/preprocess.py
@@ -0,0 +1,42 @@
 import pickle
 import json
 import nltk
 from nltk.tokenize import stanford

 # f = open('dataset/review.json', encoding='utf-8')
 # samples = []
 # j = 0
 # for i, line in enumerate(f.readlines()):
 #     review = json.loads(line)
 #     samples.append((review['stars'], review['text']))
 #     if (i+1) % 5000 == 0:
 #         print(i)
 #         pickle.dump(samples, open('review/samples%d.pkl'%j, 'wb'))
 #         j += 1
 #         samples = []
 # pickle.dump(samples, open('review/samples%d.pkl'%j, 'wb'))
 samples = pickle.load(open('review/samples0.pkl', 'rb'))
 # print(samples[0])

 import os
 os.environ['JAVAHOME'] = 'D:\\java\\bin\\java.exe'
 path_to_jar = 'E:\\College\\fudanNLP\\stanford-corenlp-full-2018-02-27\\stanford-corenlp-3.9.1.jar'
 tokenizer = stanford.CoreNLPTokenizer()

 dirname = 'review'
 dirname1 = 'reviews'

 for fn in os.listdir(dirname):
    print(fn)
    precessed = []
    for stars, text in pickle.load(open(os.path.join(dirname, fn), 'rb')):
        tokens = []
        sents = nltk.tokenize.sent_tokenize(text)
        for s in sents:
            tokens.append(tokenizer.tokenize(s))
        precessed.append((stars, tokens))
        # print(tokens)
        if len(precessed) % 100 == 0:
            print(len(precessed))
    pickle.dump(precessed, open(os.path.join(dirname1, fn), 'wb'))
    
--- a/model_inplement/code/train.py
+++ b/model_inplement/code/train.py