博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文浅尝 | 基于多原型mention向量的文本-实体联合学习
阅读量:4204 次
发布时间:2019-05-26

本文共 1170 字,大约阅读时间需要 3 分钟。

640?wx_fmt=png

链接http://anthology.aclweb.org/P/P17/P17-1149.pdf

 

概述

在知识库和文本的联合表示中,歧义是个困扰的难题。同一个 mention 可能在不同的语境下表述不同实体,同一个实体又有多种 mention 表示,如下图。本文提出了一个新的表示方法,可以在一个联合空间学习 mention 和实体的表示,同时解决歧义问题。

640?wx_fmt=png

模型

作者提出了一个 mention sense 的概念,每一个 mention 对应一个 mention_sense,以表示当前的mention的真正含义。可以看出,mention_sense 是和实体一一对应的。作者从 wikipedia 的超链接里提取出 <m_l, e_j> 的组合,即mention超链接到某一实体。对于每一个这种组合,作者把它映射到一个 mention_sense 上:

640?wx_fmt=png

这样同一实体的 mention 会共享 mention_sense,而同一 mention 对应不同实体也会映射到不同的 mention_sense。作者把文本中的 mentionmention_sense 代替,来进行联合训练。

640?wx_fmt=png

像大图的最右侧部分描述的一样,mention_sense 可以看成是文本空间和实体空间的一个链接。联合训练的似然函数由三部分组成,均采用 CBOW/skip-gram 的语言模型来得到向量:

1、实体空间

640?wx_fmt=png

这个方法让共享邻居实体的实体词尽可能相似。

2mention空间

640?wx_fmt=png

这个方法使得指向同一实体,且共享上下文的mention_sense尽可能相似。

3、文本空间

640?wx_fmt=png

共现的词之间应尽可能相似,类似于 word2vec,只不过用 mention_sense 代替 mention

 

实体链接

640?wx_fmt=png

用上述学出的向量可以进行实体链接的工作。对于每一个实体,对所有 mention_sense 做如上计算,选出概率值最大的 mention_sense,再连接到对应的实体。因为一个句子可能包含多个实体,而全局优化代价过大,为了方便,作者假设实体和实体间独立,提出了 L2R(从左至右)和 S2C(从简至繁)的逐实体预测的方法。

 

实验

作者进行了自身对比,可以看出多实体比单一实体的效果好很多。

640?wx_fmt=png

在实体相关预测和词语相关预测上,实体和词语联合学习的方法,也比单一学习提升了一些性能。

640?wx_fmt=png

640?wx_fmt=png

最后是上述实体链接的尝试:

640?wx_fmt=png

笔记整理:王冠颖,浙江大学硕士,研究方向为关系抽取、知识图谱。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

你可能感兴趣的文章
软件自动化测试框架的发展
查看>>
实现haproxy+LNMT负载均衡架构
查看>>
论文浅尝 | 通过共享表示和结构化预测进行事件和事件时序关系的联合抽取
查看>>
论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取
查看>>
论文浅尝 | GMNN: Graph Markov Neural Networks
查看>>
廖雪峰Python教程 学习笔记3 hello.py
查看>>
从内核看epoll的实现(基于5.9.9)
查看>>
python与正则表达式
查看>>
安装.Net Framework 4.7.2时出现“不受信任提供程序信任的根证书中终止”的解决方法
查看>>
input type=“button“与input type=“submit“的区别
查看>>
解决Github代码下载慢问题!
查看>>
1.idea中Maven创建项目及2.对idea中生命周期的理解3.pom文件夹下groupId、artifactId含义
查看>>
LeetCode-栈|双指针-42. 接雨水
查看>>
stdin,stdout,stderr详解
查看>>
Linux文件和设备编程
查看>>
文件描述符
查看>>
终端驱动程序:几个简单例子
查看>>
登录linux密码验证很慢的解决办法
查看>>
fcntl函数总结
查看>>
HTML条件注释
查看>>