清华大学刘知远:在深度学习时代用HowNet搞事情

  • 时间:
  • 浏览:0



3. 基于词汇表示和义原知识的词典扩展

矩阵分解辦法 首先利用大规模文本数据学习单词向量,你这个 用已有词语的义原标注构建“单词-义原”矩阵,通过矩阵分解建立与单词向量匹配的义原向量。

而 HowNet 通过一套统一的义原标注体系,也能直接精准刻画词义的语义信息;而每个义原含义明确固定,可被直接作为语义标签融入机器学习模型。 

基于 word2vec 中的 Skip-Gram 模型,大伙儿儿提出了 SAT(sememe attention over target model)模型。与 Skip-Gram 模型只考虑上下文信息相比,SAT 模型同时考虑单词的义原信息,使用义原信息辅助模型更好地“理解”单词。

DEF={location|位置:belong={angular|角},modifier={dot|点}}

在 NLP 领域知识库资源总是扮演着重要角色,在英语世界中最具知名度的是 WordNet,采用同义词集(synset)的形式标注词汇/词义的语义知识。HowNet 采取了不同于 WordNet 的标注思路,前要说是我国学者为 NLP 做出的最独具特色的杰出贡献。

1. 目前的研究工作仍听候在词法层面,对 HowNet 知识的应用亦非常有限。何如在以 RNN/LSTM 为代表的语言模型中有 效融合 HowNet 义原知识库,并在自动问答、机器翻译等应用任务中验证有效性,具有重要的研究价值。是是不是前要考虑义原标注的形状信息,也值得探索与思考。

最近大伙儿儿分别探索了词汇表示学习、新词义原推荐、和词典扩展等任务上,验证了 HowNet 与厚度学习模型融合的有效性。 

ps. 值得一提的是,这三份工作时会本科生(牛艺霖、袁星驰、曾祥楷)为主完成的,模型方案都很简单,但时会第一次投稿就被 ACL、IJCAI 和 AAAI 录用,也前要看出国际学术界对于类式技术路线的认可。

大伙儿儿考虑将词义的义原知识融入词汇表示学习模型中。在该工作中,大伙儿儿将 HowNet 的义原标注信息具象化为如下图所示的 word-sense-sememe 形状。前要注意的是,为了多样化模型,大伙儿儿这样 考虑词义的义原形状信息,即大伙儿儿将每个词义的义原标注看做一八个 无序集合。

DEF={Boundary|界限:host={entity|实体},modifier={GreaterThanNormal|高于正常:degree={most|最}}}

HowNet 秉承还原论思想,认为词汇/词义前要用更小的语义单位来描述。你这个 语义单位被称为“义原”(Sememe),顾名思义很多 原子语义,即最基本的、不宜再分割的最小语义单位。在不断标注的过程中,HowNet 逐渐构建出了一套精细的义原体系(约 50 个义原)。HowNet 基于该义原体系累计标注了数十万词汇/词义的语义信息。

本文作者:刘知远

顶点#2

哪些是 HowNet

在验证了分布式表示学习与义原知识库之间的互补关系后,大伙儿儿进一步提出,是是不是前要利用词汇表示学习模型,对新词进行义原推荐,辅助知识库标注工作。为了实现义原推荐,大伙儿儿分别探索了矩阵分解和协同过滤等辦法 。 

△ SAT(Sememe Attention over Target Model)模型示意图

具体做法是,根据上下文单词来对中心词做词义消歧,使用 attention 机制计算上下文对该单词各个词义(sense)的权重,你这个 使用 sense embedding 的加权平均值表示单词向量。在词语类式度计算和移觉推理一八个 任务上的实验结果表明,将义原信息融入词汇表示学习也能有效提升词向量性能。



厚度学习时代 HowNet 哪些用

是时会说,厚度学习时代以 WordNet、HowNet 为代表的语言知识库就毫无用处了呢?实际难能可贵这样 。实际上自 word2vec 刚提出一年后,大伙儿儿[5]以及 ACL 2015 最佳学生论文[6]等工作,都发现将 WordNet 知识融入到词表示学习过程中,也能有效提升词表示效果。 

我说是不可能 HowNet 采用了收费授权的政策,你这个 主要面向中文世界,近年来 HowNet 知识库你这个 淡出大伙儿儿的视野。然而,对 HowNet 逐渐深入理解,以及最近大伙儿儿在 HowNet 与厚度学习模型融合的成功尝试,不你都还可以过后结束了了坚信,HowNet 语言知识体系与思想必将在厚度学习时代大放异彩。

2017 年 12 月底,清华大学张钹院士做了一场题为《AI 科学突破的前夜,教授们应当看过哪些?》的精彩特邀报告。他认为,处置知识是人类所擅长的,而处置数据是计算机所擅长的,不可能 也能将二者结合起来,一定也能构建出比人类更加智能的系统。你这个 他提出,AI 未来的科学突破是建立五种同时基于知识和数据的 AI 系统

在自然语言理解方面,HowNet 更贴近语言本质特点。自然语言中的词汇是典型的符号信息,哪些符号背后含晒 充足的语义信息。前要说,词汇是最小的语言使用单位,却时会最小的语义单位。HowNet 提出的义原标注体系,正是突破词汇屏障,深入了解词汇背后充足语义信息的重要通道。 

类式“顶点”一词在 HowNet 有一八个 代表义项,分别标注义原信息如下,其中每个“xx|yy”代表一八个 义原,“|”左边为英文右边为中文;义原之间还被标注了多样化的语义关系,如 host、modifier、belong 等,从而也能精确地表示词义的语义信息。

此外,HowNet 义原知识库规模宏大、标注时间跨度长,难免跳出标注不一致大问题,这将极大影响相关模型的效果,前要探索相关算法,辅助人类专家做好知识库的一致性检测和质量控制。

△ 中国期刊网(CNKI)统计HowNet学术关注度变化趋势

以上介绍的三项工作很多 初步验证了厚度学习时代 HowNet 语言知识库在你这个 任务的重要作用。以 HowNet 语言知识库为代表的人类知识与以厚度学习为代表的数据驱动模型何如厚度融合,尚有你这个 重要的开放大问题亟待探索与解答。我认为以下十几条 方向深具探索价值:

△ 基于Sememe Attention的词典扩展模型

回顾最过后结束了了提及的张钹院士的观点,大伙儿儿坚信 AI 未来的科学突破是建立五种同时基于知识和数据的 AI 系统。看清楚了你这个 大形势,针对 NLP 厚度学习模型的关键大问题就在于,利用哪些知识,何如利用知识。 

进入厚度学习时代,大伙儿儿发现通过大规模文本数据也也能很好地学习词汇的语义表示。类式以 word2vec[4]为代表的词表示学习辦法 ,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,又称为分布式表示(distributed representation,或 embedding),利用大规模文本中的词汇上下文信息自动学习向量表示。

HowNet 在 50 年前后引起了国内 NLP 学术界极大的研究热情,在词汇类式度计算、文本分类、信息检索等方面探索了 HowNet 的重要应用价值[2,3],与当时国际上对 WordNet 的应用探索相映成趣。



最近,大伙儿儿又尝试了利用词语表示学习与 HowNet 知识库进行词典扩展。词典扩展任务旨在根据词典中的已有词语,自动扩展出更多的相关词语。

大伙儿儿利用大规模文本数据学习每个词语的分布式向量表示,你这个 用 LIWC 词典单词作为训练数据训练分类器,并用 HowNet 提供的义原标注信息构建 sememe attention。实验表明,义原信息的引入也能显著提升单词的层次分类效果。

3. HowNet 知识库的义原体系是专家在不断标注过程中反思总结的结晶。但义原体系难能可贵一成不变,很多 见得完美无瑕。它应当随时间变化而演化,并随语言理解的深入而扩展。大伙儿儿前要探索五种数据驱动与专家驱动相结合的手段,不断优化与扩充义原体系,更好地满足自然语言处置需求。

大伙儿儿前要用哪些向量方便地计算词汇/词义类式度,也能取得比传统基于语言知识库的辦法 还好的效果。也正不可能 这样 ,近年来无论是 HowNet 还是 WordNet 的学术关注度时会显著下降,如以下两图所示。

2. 基于词汇表示的新词义原推荐

总之,HowNet 知识库是进入厚度学习时代后被极度忽视的一片宝藏,它我说会成为处置 NLP 厚度学习模型诸多瓶颈的一把钥匙。在厚度学习时代用 HowNet 搞事情,广阔天地,大有可为!

原文发布时间为:2018-01-08

本文来自云栖社区商务相互合作伙伴“PaperWeekly”,了解相关信息前要关注“PaperWeekly”微信公众号

我完整篇 赞同张钹老师的学术观点。最近一年里,大伙儿儿在这方面也做了你这个 尝试,将语言知识库 HowNet 中的义原标注信息融入面向 NLP 的厚度学习模型中,取得了你这个 有意思的结果,在这里派发与大伙儿儿分享一下。

顶点#1

在融入学习模型方面,HowNet 具是是不是可移觉的优势。在 WordNet、同义词词林等知识库中,每个词的词义是通过同义词集(synset)和定义(gloss)来间接体现的,具体每个词义到底哪些意义,缺少细粒度的精准刻画,缺少显式定量的信息,无法更好为计算机所用。

1. 融合义原知识的词汇表示学习

大伙儿儿的尝试

该任务前要看做对词语的分类大问题。大伙儿儿选着在社会学中享有盛名的 LIWC 词典(Linguistic Inquiry and Word Count)中文版来开展研究。LIWC 中文版中每个单词都被标注层次化心理学类别。

难能可贵目前大每种 NLP 厚度学习模型尚这样 为语言知识库留出位置,但正不可能 厚度学习模型 data-hungry、black-box 等形状,正使其发展遭遇不可突破的瓶颈。

义原推荐的实验结果表明,综合利用矩阵分解和协同过滤五种手段,前要有效进行新词的义原推荐,并在一定程度前要够发现 HowNet 知识库的标注不一致大问题。该技术将能助 提高 HowNet 语言知识库的标注速度与质量。 

未来展望

△ HowNet义原标注知识的word-sense-sememe形状示意图

2. 经过几十年的精心标注,HowNet 知识库已有相当规模,但面对日新月异的信息时代,对开放域词汇的覆盖度仍位于不足。前要不断探索更精准的新词义原自动推荐技术,让计算机辅助人类专家进行更及时高效的知识库标注工作。

当给定新词时,利用新词在大规模文本数据得到的单词向量推荐义原信息。协同过滤辦法 则利用单词向量自动寻找与给定新词最类式的单词,你这个 利用哪些类式单词的义原进行推荐。

HowNet 是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]

△ Semantic Scholar统计WordNet相关论文变化趋势