Learning Chinese Word Representations From Glyphs Of Characters

象形文字

概述

本文从汉字为象形文字这一点出发,提出从汉字的图像上学习“词向量”,并在三个数据集上进行了“词义相似度”和“词语类比”的实验,发现:直接从图像中学习词向量表现并不优良,而将图像词向量作为原先词向量的辅助信息确实可以带来一定的提升。
但就本人而言实验部分中的三个数据集,究竟偏重的是词向量哪部分的性能测试呢,是否切合了象形文字的优势呢?另外,作者从图像中学习词向量的方法能否最有效地从词向量中捕捉词语直接的相关关系呢?

动机简述

在中文中,汉字往往有多个组件构成。这有两层含义:一是汉字的含义往往与组件相关,因此在学习词向量的过程中,兼顾这些信息有助于提升最终词向量的质量;二是共享相同偏旁的多个汉字语义或发音上也有一定联系。这些组件的信息对于词向量学习都是有益的。

模型介绍

作者在基于原先的几个词向量表示学习的模型的基础上,提出了自己的改进方式。

Baselines

CBOW and Skip-Gram

这是word2vec中提出的两个经典模型,简单有效。CBOW是给定上下文预测目标词,Skip-Gram是给定目标词预测上下文。除此之外,还有一些训练技巧,如层次化的softmax、哈夫曼编码、负采样等。

GloVe

GloVe是通过词语共现矩阵学习词向量的。在统计词语共现信息时,GloVe使用了调和权重,即距离为$d$的两个词语共现频率记为$1/d$;GloVe的目标函数如下:
$$
\sum_{i, j \in \text{non-zero of} X} f(X_{ij})(\vec{w}_i^T\vec{\tilde{w}}_j + b_i + \tilde{b}j - \log{X{ij}})
$$
其中,考虑到共现频次过低时统计数据不可信,故而引入如下$f(X_{ij})$作为权重。
$$
f(X_{ij}) =
\begin{cases}
(X_{ij}/x_{max})^{\alpha}, \text{if } X_{ij}< x_{max}\
1, & \text{otherwise}\
\end{cases}
$$

Character-enhanced Word Embedding (CWE)

CWE寄希望于通过融入构成词语的字信息来提升词向量的质量,如下:
$$
\vec{w}_i^{cwe} = \vec{w}i + \frac{1}{\vert C(i)\vert}\sum{c_j\in C(i)}\vec{c}_j
$$
其中,$\vec{w}_i$是词向量,$\vec{c}_j$是字向量,$C(i)$是词语$w_i$的字集合。
另外,由于一个字往往含有多个含义,CWE为每个字分配多个向量,不能给提出了三种挑选字向量的方式:基于位置,基于簇丛,非参数的基于簇丛的挑选方式。

Model Comparison of Character-enhanced Word Embedding (CWE) and Multi-granularity Embedding (MGE)

Multi-granularity Embedding (MGE)

MGE基于CBOW和CWE模型,并融入了目标词的偏旁信息。MGE通过如下隐层表示预测目标词:
$$
\vec{h}i = \frac{1}{\vert C(i)\vert} \sum{c_k\in C(i)} \vec{r}k + \frac{1}{\vert W(i)\vert} \sum{w_j \in W(i)} \vec{w}_j^{cwe}
$$
其中$\vec{r}_k$是目标词的偏旁向量,$C(i)$是目标词包含的字,$W(i)$是上下文词语。

Models

作者使用convAE从字生成的图像中抽取表示。

The architecture of convAE

Glyph-Enhanced Word Embedding (GWE)

在预训练好上述的convAE后,模型就可以得出字的向量表示。类似于MGE的做法,作者基于CBOW和CWE模型,融入字的图像向量,并可以细分为两类:
context character glyph feature
Illustration of exploiting context word glyphs.

target character glyph feature
Illustration of exploiting target word glyphs.

Directly Learn From Character Glyph Features

作者也尝试直接从字的图像中学到词向量,无论是SkipGram或者GloVe,更改的地方都是如何产生词向量。在该工作中,作者先是通过convAE学到字图像向量,之后通过双层的GRU,最后通过两层全连接层得到对应的词向量。
Model architecture of RNN-Skipgram.
Model architecture of RNN-GloVe.

参考文献

Learning Chinese Word Representation From Glyphs Of Characters

0%