@@ -0,0 +1,38 @@ | |||||
把 O | |||||
欧 B-LOC | |||||
美 B-LOC | |||||
、 O | |||||
港 B-LOC | |||||
台 B-LOC | |||||
流 O | |||||
行 O | |||||
的 O | |||||
食 O | |||||
品 O | |||||
类 O | |||||
图 O | |||||
谱 O | |||||
马 B-PER | |||||
列 B-PER | |||||
主 O | |||||
义 O | |||||
在 O | |||||
中 B-LOC | |||||
国 I-LOC | |||||
传 O | |||||
播 O | |||||
的 O | |||||
历 O | |||||
史 O |
@@ -0,0 +1,31 @@ | |||||
中 B-ORG | |||||
共 I-ORG | |||||
中 I-ORG | |||||
央 I-ORG | |||||
致 O | |||||
中 B-ORG | |||||
国 I-ORG | |||||
致 I-ORG | |||||
公 I-ORG | |||||
党 I-ORG | |||||
十 I-ORG | |||||
一 I-ORG | |||||
大 I-ORG | |||||
的 O | |||||
贺 O | |||||
词 O | |||||
各 O | |||||
位 O | |||||
代 O | |||||
表 O |
@@ -0,0 +1,60 @@ | |||||
是 O | |||||
我 O | |||||
们 O | |||||
收 O | |||||
藏 O | |||||
北 B-LOC | |||||
京 I-LOC | |||||
史 O | |||||
料 O | |||||
调 O | |||||
查 O | |||||
范 O | |||||
围 O | |||||
涉 O | |||||
及 O | |||||
故 B-LOC | |||||
宫 I-LOC | |||||
、 O | |||||
历 B-LOC | |||||
博 I-LOC | |||||
、 O | |||||
古 B-ORG | |||||
研 I-ORG | |||||
所 I-ORG | |||||
、 O | |||||
北 B-LOC | |||||
大 I-LOC | |||||
清 I-LOC | |||||
华 I-LOC | |||||
图 I-LOC | |||||
书 I-LOC | |||||
馆 I-LOC | |||||
. O | |||||
夏 B-PER | |||||
财 I-PER | |||||
兴 I-PER | |||||
家 O | |||||
分 O | |||||
到 O | |||||
田 O |
@@ -0,0 +1,7 @@ | |||||
中 B-ORG | |||||
共 I-ORG | |||||
中 I-ORG | |||||
央 I-ORG | |||||
致 O | |||||
中 B-ORG |
@@ -0,0 +1,41 @@ | |||||
美 B-LOC | |||||
国 I-LOC | |||||
的 O | |||||
华 B-PER | |||||
莱 B-PER | |||||
士 B-PER | |||||
中 B-ORG | |||||
共 I-ORG | |||||
中 I-ORG | |||||
央 I-ORG | |||||
举 O | |||||
办 O | |||||
《 O | |||||
“ O | |||||
一 O | |||||
国 O | |||||
两 O | |||||
制 O | |||||
” O | |||||
与 O | |||||
香 B-LOC | |||||
港 I-LOC | |||||
基 O | |||||
本 O | |||||
法 O | |||||
》 O | |||||
讲 O | |||||
座 O |
@@ -0,0 +1,46 @@ | |||||
我 O | |||||
们 O | |||||
收 O | |||||
藏 O | |||||
北 B-LOC | |||||
京 I-LOC | |||||
史 O | |||||
料 O | |||||
历 B-LOC | |||||
博 I-LOC | |||||
、 O | |||||
古 B-ORG | |||||
研 I-ORG | |||||
所 I-ORG | |||||
、 O | |||||
北 B-LOC | |||||
大 I-LOC | |||||
清 I-LOC | |||||
华 I-LOC | |||||
图 I-LOC | |||||
书 I-LOC | |||||
馆 I-LOC | |||||
我 O | |||||
们 O | |||||
是 O | |||||
受 O | |||||
到 O | |||||
郑 B-PER | |||||
振 I-PER | |||||
铎 I-PER | |||||
先 O | |||||
生 O |
@@ -0,0 +1,21 @@ | |||||
老 B-PER.NOM | |||||
百 I-PER.NOM | |||||
姓 I-PER.NOM | |||||
心 O | |||||
新 B-GPE.NAM | |||||
乡 I-GPE.NAM | |||||
年 O | |||||
大 B-ORG.NOM | |||||
学 I-ORG.NOM | |||||
同 O | |||||
宿 B-LOC.NOM | |||||
舍 I-LOC.NOM | |||||
三 O | |||||
年 O |
@@ -0,0 +1,17 @@ | |||||
感 O | |||||
动 O | |||||
了 O | |||||
李 B-PER.NAM | |||||
开 I-PER.NAM | |||||
复 I-PER.NAM | |||||
小 B-ORG.NOM | |||||
学 I-ORG.NOM | |||||
美 O | |||||
术 O | |||||
新 O | |||||
课 O |
@@ -0,0 +1,69 @@ | |||||
坏 O | |||||
男 B-PER.NOM | |||||
人 I-PER.NOM | |||||
男 B-PER.NOM | |||||
人 I-PER.NOM | |||||
帮 I-PER.NOM | |||||
不 O | |||||
南 B-GPE.NAM | |||||
都 I-GPE.NAM | |||||
南 B-GPE.NAM | |||||
方 I-GPE.NAM | |||||
都 I-GPE.NAM | |||||
市 I-GPE.NAM | |||||
的 O | |||||
那 B-LOC.NOM | |||||
座 I-LOC.NOM | |||||
来 O | |||||
学 B-ORG.NOM | |||||
校 I-ORG.NOM | |||||
的 O | |||||
卫 B-ORG.NAM | |||||
生 I-ORG.NAM | |||||
部 I-ORG.NAM | |||||
台 B-GPE.NAM | |||||
灣 I-GPE.NAM | |||||
火 B-LOC.NAM | |||||
焰 I-LOC.NAM | |||||
山 I-LOC.NAM | |||||
的 O | |||||
成 O | |||||
李 B-PER.NAM | |||||
力 I-PER.NAM | |||||
帆 I-PER.NAM | |||||
我 O | |||||
南 B-GPE.NAM | |||||
都 I-GPE.NAM | |||||
深 B-GPE.NAM | |||||
圳 I-GPE.NAM | |||||
一 O | |||||
个 O | |||||
国 B-GPE.NOM | |||||
家 I-GPE.NOM | |||||
以 O | |||||
民 B-PER.NOM | |||||
为 O | |||||
本 O |
@@ -31,6 +31,7 @@ class TestLoad(unittest.TestCase): | |||||
'sst-2': ('test/data_for_tests/io/SST-2', SST2Loader, (5, 5, 5), True), | 'sst-2': ('test/data_for_tests/io/SST-2', SST2Loader, (5, 5, 5), True), | ||||
'sst': ('test/data_for_tests/io/SST', SSTLoader, (6, 6, 6), False), | 'sst': ('test/data_for_tests/io/SST', SSTLoader, (6, 6, 6), False), | ||||
'imdb': ('test/data_for_tests/io/imdb', IMDBLoader, (6, 6, 6), False), | 'imdb': ('test/data_for_tests/io/imdb', IMDBLoader, (6, 6, 6), False), | ||||
'ChnSentiCorp': ('test/data_for_tests/io/ChnSentiCorp', ChnSentiCorpLoader, (6, 6, 6), False), | |||||
} | } | ||||
for k, v in data_set_dict.items(): | for k, v in data_set_dict.items(): | ||||
path, loader, data_set, warns = v | path, loader, data_set, warns = v | ||||
@@ -40,15 +40,19 @@ class TestRunClassificationPipe(unittest.TestCase): | |||||
'sst-2': ('test/data_for_tests/io/SST-2', SST2Pipe, (5, 5, 5), (139, 2), True), | 'sst-2': ('test/data_for_tests/io/SST-2', SST2Pipe, (5, 5, 5), (139, 2), True), | ||||
'sst': ('test/data_for_tests/io/SST', SSTPipe, (6, 354, 6), (232, 5), False), | 'sst': ('test/data_for_tests/io/SST', SSTPipe, (6, 354, 6), (232, 5), False), | ||||
'imdb': ('test/data_for_tests/io/imdb', IMDBPipe, (6, 6, 6), (1670, 2), False), | 'imdb': ('test/data_for_tests/io/imdb', IMDBPipe, (6, 6, 6), (1670, 2), False), | ||||
'ChnSentiCorp': ('test/data_for_tests/io/ChnSentiCorp', ChnSentiCorpPipe, (6, 6, 6), (529, 1296, 1483, 2), False), | |||||
} | } | ||||
for k, v in data_set_dict.items(): | for k, v in data_set_dict.items(): | ||||
path, pipe, data_set, vocab, warns = v | path, pipe, data_set, vocab, warns = v | ||||
with self.subTest(pipe=pipe): | with self.subTest(pipe=pipe): | ||||
if warns: | |||||
with self.assertWarns(Warning): | |||||
if 'Chn' not in k: | |||||
if warns: | |||||
with self.assertWarns(Warning): | |||||
data_bundle = pipe(tokenizer='raw').process_from_file(path) | |||||
else: | |||||
data_bundle = pipe(tokenizer='raw').process_from_file(path) | data_bundle = pipe(tokenizer='raw').process_from_file(path) | ||||
else: | else: | ||||
data_bundle = pipe(tokenizer='raw').process_from_file(path) | |||||
data_bundle = pipe(bigrams=True, trigrams=True).process_from_file(path) | |||||
self.assertTrue(isinstance(data_bundle, DataBundle)) | self.assertTrue(isinstance(data_bundle, DataBundle)) | ||||
self.assertEqual(len(data_set), data_bundle.num_dataset) | self.assertEqual(len(data_set), data_bundle.num_dataset) | ||||
@@ -22,3 +22,19 @@ class TestRunPipe(unittest.TestCase): | |||||
print(pipe) | print(pipe) | ||||
data_bundle = pipe().process_from_file('test/data_for_tests/conll_2003_example.txt') | data_bundle = pipe().process_from_file('test/data_for_tests/conll_2003_example.txt') | ||||
print(data_bundle) | print(data_bundle) | ||||
class TestNERPipe(unittest.TestCase): | |||||
def test_process_from_file(self): | |||||
data_dict = { | |||||
'weibo_NER': WeiboNERPipe, | |||||
'peopledaily': PeopleDailyPipe, | |||||
'MSRA_NER': MsraNERPipe, | |||||
} | |||||
for k, v in data_dict.items(): | |||||
pipe = v | |||||
with self.subTest(pipe=pipe): | |||||
data_bundle = pipe(bigrams=True, trigrams=True).process_from_file(f'test/data_for_tests/io/{k}') | |||||
print(data_bundle) | |||||
data_bundle = pipe(encoding_type='bioes').process_from_file(f'test/data_for_tests/io/{k}') | |||||
print(data_bundle) |