History

liuxiaoxiong acdebfccbc [bugfix]修复 coreference resolution复现代码中参数名字不对应的bug (#323 ) * pipeline * 修复找不到对应参数的bug * 增加requirement文件		5 years ago
..
model	[bugfix]修复 coreference resolution复现代码中参数名字不对应的bug (#323)	5 years ago

README.md	pipe	6 years ago

__init__.py	指代消解源码	6 years ago

requirements.txt	[bugfix]修复 coreference resolution复现代码中参数名字不对应的bug (#323)	5 years ago

train.py	[bugfix]修复 coreference resolution复现代码中参数名字不对应的bug (#323)	5 years ago

valid.py	fix code style in coreference task and related codes	6 years ago

README.md

指代消解复现

指代消解复现

介绍

Coreference resolution是查找文本中指向同一现实实体的所有表达式的任务。
对于涉及自然语言理解的许多更高级别的NLP任务来说，
这是一个重要的步骤，例如文档摘要，问题回答和信息提取。
代码的实现主要基于 End-to-End Coreference Resolution (Lee et al, 2017).

数据获取与预处理

论文在OntoNote5.0数据集上取得了当时的sota结果。
由于版权问题，本文无法提供数据集的下载，请自行下载。
原始数据集的格式为conll格式，详细介绍参考数据集给出的官方介绍页面。

代码实现采用了论文作者Lee的预处理方法，具体细节参见链接。
处理之后的数据集为json格式，例子：

{
  "clusters": [],
  "doc_key": "nw",
  "sentences": [["This", "is", "the", "first", "sentence", "."], ["This", "is", "the", "second", "."]],
  "speakers": [["spk1", "spk1", "spk1", "spk1", "spk1", "spk1"], ["spk2", "spk2", "spk2", "spk2", "spk2"]]
}

embedding 数据集下载

turian emdedding

glove embedding

运行

# 训练代码
CUDA_VISIBLE_DEVICES=0 python train.py
# 测试代码
CUDA_VISIBLE_DEVICES=0 python valid.py

结果

原论文作者在测试集上取得了67.2%的结果，AllenNLP复现的结果为 63.0%。
其中AllenNLP训练时没有加入speaker信息，没有variational dropout以及只使用了100的antecedents而不是250。

在与AllenNLP使用同样的超参和配置时，本代码复现取得了63.6%的F1值。

问题

如果您有什么问题或者反馈，请提issue或者邮件联系我：
yexu_i@qq.com

一款轻量级的自然语言处理（NLP）工具包，目标是减少用户项目中的工程型代码，例如数据处理循环、训练循环、多卡运行等

自然语言处理 nlp

Python Jupyter Notebook Text CSV Markdown

poemsmileyh@gmail.com will131@foxmail.com writerphone@163.com yunfan.shao@outlook.com ygxu18@fudan.edu.cn xuyige1996@gmail.com xpqiu@fudan.edu.cn 42239874+lyhuang18@users.noreply.github.com brxx122@gmail.com 1901722105@qq.com 1505116161@qq.com lyhuang19@163.com 845465009@qq.com SrWYG@users.noreply.github.com keezen@qq.com violetyao@berkeley.edu yexu_i@qq.com 17210240044@fudan.edu.cn 1004473299@qq.com roger_davis@sina.com benbenjituo@gmail.com linzehui96@gmail.com ynzheng15@fudan.edu.cn 17966083+Xiaoxiong-Liu@users.noreply.github.com gosicfly@163.com

README.md

指代消解复现

介绍

数据获取与预处理

embedding 数据集下载

运行

结果

问题

Contributors (25+) All

Contributors (25+)
All