博士论文《基于神经网络的词和文档语义向量表示方法研究》

2016 年 2 月 15 日 by licstar·72条评论

前前后后写论文也有将近一年的时间了。这个研究的课题到目前还比较热门，在此分享博士论文。希望读者有所收获，少走一些弯路。

论文下载地址：http://pan.baidu.com/s/1jGWmmZO。
arXiv 地址：https://arxiv.org/abs/1611.05962

感谢赵老师的指导，以及各位老师同学的宝贵建议！

有什么疑问或者发现什么问题都可以直接在这里评论。

博士论文深度学习词向量

72 评论

fpp说道：

2016 年 2 月 15 日下午 12:11

认真拜读大作！

回复
Jacob Xu说道：

2016 年 2 月 16 日上午 9:21

赞！

回复
吉姆说道：

2016 年 2 月 16 日上午 9:42

强势沙发

回复
z说道：

2016 年 2 月 18 日下午 9:01

看看

回复
zzks说道：

2016 年 2 月 24 日下午 3:49

拜读了来老师的大作，收获颇丰！关于字词向量有一个问题想确认下：
对比W2V，论文中的字词向量是不是 W2V的句子Corpus+单词组成新Corpus，W2V的单词Vocabulary+汉字组成新Vocabulary。

回复
1. licstar说道：
  
  2016 年 5 月 19 日下午 1:53
  
  corpus是：W2V的句子Corpus，vocabulary理解没错。
  
  回复
徐鹏飞说道：

2016 年 3 月 8 日下午 4:58

几篇文章都写得很好，对NLP的词向量相关技术有全局把握，获益良多，特来点赞！

回复
张柯说道：

2016 年 3 月 15 日下午 10:09

文章里面神经网络的图用什么画的啊？

回复
1. licstar说道：
  
  2016 年 3 月 19 日上午 1:04
  
  visio
  
  回复
iruser说道：

2016 年 4 月 4 日下午 8:12

大神，你百度云embedding文件夹下是训练好的词向量吗？
GoogleNews-vertors是英文的语料训练的吗？

回复
1. licstar说道：
  
  2016 年 5 月 19 日下午 1:46
  
  是训练好的。GoogleNews-vectors是Mikolov在GoogleNews语料上训练的，是英文的。
  
  回复
官永庆说道：

2016 年 4 月 16 日上午 11:54

特来学习，希望对我的项目有帮助。

回复
BorisJineman说道：

2016 年 4 月 23 日下午 11:16

博主好，我最近在研究微软的CNTK，感谢您的论文，受益匪浅。我偶尔也会写些有关CNTK使用方面以及基本原理方面的文章，今天获得您的文章感觉受益匪浅，未来可能会推荐给其他人，如遇到引用您文章中的内容，我会声明出处尊重版权。再次感谢您论文中的内容给我的启发。

回复
1. licstar说道：
  
  2016 年 5 月 19 日下午 1:40
  
  多谢支持
  
  回复
  1. A-sen说道：
    
    2018 年 2 月 25 日下午 5:12
    
    很棒
    
    回复
钱程扬说道：

2016 年 5 月 13 日上午 11:21

很少看到这样系统的中文材料，感谢分享。有问题还希望可以多向你请教。

回复
Bobfan说道：

2016 年 6 月 22 日下午 3:33

2.1分布表示第一段第9行“被成为”是“被称为”吧？

回复
1. licstar说道：
  
  2016 年 10 月 11 日上午 11:34
  
  是的，多谢指出。
  
  回复
susui说道：

2016 年 7 月 12 日下午 12:22

论文中基于字表示的中文分词部分代码能release吗

回复
1. licstar说道：
  
  2016 年 10 月 23 日上午 1:56
  
  我的代码还没整理过，你可以先用这个吧，效果其实和我的方法差不多的。
  https://github.com/Leonard-Xu/CWE
  
  回复
  1. shike说道：
    
    2016 年 11 月 6 日下午 4:20
    
    作者你好，论文中“基于字词联合训练的文中表示”一章，有在哪个会议上发表么？对于中文词表示这块，我想再研读一下。
    
    回复
    1. licstar说道：
      
      2016 年 11 月 22 日下午 7:44
      
      中文信息学报上有一部分，是分词的那块。还是博士论文里这一章比较完整。
      
      回复
noname说道：

2016 年 7 月 14 日下午 5:45

文章介绍得太清晰明了了！

回复
malerong说道：

2016 年 9 月 6 日下午 9:25

It is a wonderful works about word and text representations. However, the public thesis only have 100 paper that do not complete in full paper. May you send me a full thesis to my email inbox: malerong2008@163.com?

回复
malerong说道：

2016 年 9 月 6 日下午 9:26

I have downloaded the full thesis. Thanks a lot!

回复
罗彤说道：

2016 年 9 月 11 日下午 4:44

快速读完了作品，很棒的一个word embedding及其相关领域的应用。
有几个问题请教：
第2、3章的内容全都是在英文上进行的，为什么没有太多word embedding在中文上的对比呢？
另外就是关于glove与word2vec在中文上的比较如何呢？
基于中文字的word embedding在文本分类、句子分类、NER等的表现如何呢？

我特别关注中文的原因是因为大部分的高水平文章都是在英文集上的，中文由于特有的语义而缺少更多的实验结果来分享。

回复
1. licstar说道：
  
  2016 年 10 月 23 日上午 1:54
  
  最真实的理由，没做中文，就是因为做英文的容易发论文……实验工作量太大，就没想再补中文的了。
  自认为做的那些分析没有哪一点是针对英文的，所以可能中文也是类似的效果。不过你质疑的很有道理，毕竟没有实验支撑，估计就只能是猜想了。
  字直接做文本分类效果很难好吧，做NER可能也需要bi-gram的embedding才能超过传统方法，纯用字的embedding前两年的效果都还不太行。也有一年多没关注了，您可以查查最新论文。
  
  回复
fdmath说道：

2016 年 9 月 12 日下午 4:11

谢谢分享啊，崇拜博士大牛~

回复
zixiaozhang说道：

2016 年 9 月 26 日下午 10:49

您好，之前下载了您论文，想不到今天看到你的博客才知道是您写的。我有个问题想看看你的思路，我想能否利用word2vec在关键词聚类后，生成每一类别的主题词呢？

回复
1. licstar说道：
  
  2016 年 10 月 23 日上午 1:42
  
  主题词这个应该是主题模型生成的吧。如果一定要找一些类别里有代表性的词，可以先试试高频词或者靠近类别中心的。我也没试过以上纯属YY。
  
  回复
2. Cathy说道：
  
  2017 年 3 月 16 日下午 9:21
  
  这个用Word2vec 我之前尝试过，聚类效果一般
  
  回复
yuxin zhang说道：

2016 年 10 月 20 日上午 10:53

感谢分享

回复
Sumi说道：

2016 年 11 月 16 日下午 7:58

您好，看了您的论文受益良多。有个疑问想请教下，论文第五章循环卷积网络的输入词向量是通过维基语料训练好的。比如由维基语料训练得到 apple的词向量为T，那么对train和test中的单词apple的词向量都取T，是这样的吗？

回复
1. licstar说道：
  
  2016 年 11 月 22 日下午 7:46
  
  在训练阶段，T会作为初始值，随着训练还会修改一下。测试集就用修改之后的T。
  
  回复
Ariel说道：

2016 年 11 月 16 日下午 8:13

你好，请问论文中字词联合训练部分的代码可以分享吗？

回复
1. licstar说道：
  
  2016 年 11 月 22 日下午 7:48
  
  实在抱歉这部分代码太零碎了没法分享。
  你可以参考这个，效果很接近。https://github.com/Leonard-Xu/CWE
  
  回复
Ariel说道：

2016 年 11 月 16 日下午 8:22

你好，请问skip-gram模型不是用上下文预测目标词么？为什么论文中是用上下文预测目标词？

回复
1. licstar说道：
  
  2016 年 11 月 22 日下午 7:16
  
  这个是对称的。从整个语料库的角度来看，每个词都会预测一次它周围的词。所以两种理解都是可以的。
  
  回复
许根鹏说道：

2016 年 11 月 22 日上午 10:39

莱博士，你好，认真拜读了您的大作《Recurrent Convolutional Neural
Networks for Text Classification》，能分享一下这篇文章的代码吗，感激不尽。

回复
1. licstar说道：
  
  2016 年 11 月 22 日下午 7:49
  
  已经放到http://licstar.net/links
  
  回复
  1. 许根鹏说道：
    
    2016 年 11 月 23 日上午 11:33
    
    谢谢，谢谢。
    
    回复
高进说道：

2017 年 1 月 4 日上午 9:51

您好，看了您的这篇论文《Recurrent Convolutional Neural Networks for Text Classification》之后，并且下载了您的代码编译运行了下，用您提供的斯坦福情感树库语料运行没有问题，但是我试了一下自己的汉语语料，运行出现如下错误，iim@iim-Precision-T7610:~/rcnn$ ./ecnn-noada trainvector.txt traindata.txt questest.txt 5 0 0 0 90 >log.txt
段错误 (核心已转储)
请问这个问题该怎么解决呢？百度了说是指针溢出，可是源码太多，我也看不懂，能麻烦您帮忙解决一下吗？谢谢

回复
温伟煌说道：

2017 年 2 月 13 日上午 9:36

来博士，我最近在看stanford的cs224d Depp learning for NLP,。在对照着它的note和你的毕业论文看的时候，发现你描述的cbow 和 skip-gram 模型是没有隐层的，但是它的note里面是有的，是有两种说法和解释吗？

回复
1. licstar说道：
  
  2017 年 2 月 13 日下午 5:05
  
  skip-gram是没有隐层的。cbow可以认为有隐层，隐层是输入词的平均。
  
  回复
  1. 温伟煌说道：
    
    2017 年 2 月 13 日下午 6:10
    
    哦我后来看明白了，那个写note的教授并没有直接拿word 的embedded vector作为输入，而是用了一个one-hot 的representation。所以它多了一个隐层来把one-hot转化成embedded。
    
    回复
孔金英说道：

2017 年 2 月 15 日下午 10:44

博主您好作为一名今年即将毕业的科学院博士生，本人很想拜读下您的高作无奈我这里上不了百度网盘，如果方便的话，请将您的高作发一份我的邮箱 konguestc@163.com
万分感谢！！！

回复
1. licstar说道：
  
  2017 年 2 月 26 日下午 12:05
  
  已发
  
  回复
许根鹏说道：

2017 年 2 月 19 日下午 2:28

您好，请问论文中神经网络图中的公式和文字是怎么添加的呢，尤其是公式，因为我点了论文上的图，文字、公式和神经网络图好像不是一体的，谢谢。

回复
1. licstar说道：
  
  2017 年 2 月 26 日上午 12:16
  
  观察的好仔细……图片里的公式是用Illustrator 直接编辑图片改成latex的公式的……强迫症
  
  回复
Lei说道：

2017 年 3 月 1 日下午 2:07

您好，请问关于词向量方面，有“双语词向量”相关的文献吗？谢谢

回复
1. licstar说道：
  
  2017 年 3 月 7 日下午 1:20
  
  这篇比较早 Bilingual Word Embeddings for Phrase-Based Machine Translation，我后来不太关注这方面了，你可以试试顺着引用它的文章，找下去。
  https://scholar.google.com/scholar?newwindow=1&biw=1920&bih=965&um=1&ie=UTF-8&lr&cites=3532306131414778487
  
  回复
  1. Lei说道：
    
    2017 年 3 月 16 日下午 12:30
    
    谢谢！
    
    回复
wendao说道：

2017 年 3 月 10 日下午 4:35

拜读！

回复
htliu说道：

2017 年 4 月 10 日下午 9:19

博士您好！最近在关注embedding方面的东西，看了您的论文收益很大。有一点疑问不是很明白，如下:
“词向量是神经语言模型的副产品”，词向量具体怎么学到的？
在NNLM里面，词向量是被存到|e| * |V| 的矩阵里面，那这个矩阵也会通过BP去更新吗？您论文中(P13)指出θ为模型中的所有参数，包括词向量和网络结构中的权重 U、H、b(1)、b(2)，这里并没有词向量的矩阵，所以不太明白是在哪一步学习了词向量e这个副产品？此外在开始e是被随机初始化的吗？
谢谢博士啦！

回复
1. licstar说道：
  
  2017 年 4 月 18 日下午 9:41
  
  是随机初始化的，和其它网络参数一起学习一起更新的。
  
  回复
htliu说道：

2017 年 4 月 10 日下午 9:36

又阅读了您的http://licstar.net/archives/328 及其评论，大致确认了NNLM里面的词向量矩阵也会被作为参数训练，谢谢，受益匪浅

回复
WJL说道：

2017 年 6 月 15 日上午 10:15

感谢博主的分享～之前写本科毕设和硕士小论文的时候就多次从你的博文中学习，现在有博士论文的特别想拜读，但是百度网盘我进去发现找不到了，求发～我邮箱：wangjileiRUC_at_163.com，谢谢～

回复
1. licstar说道：
  
  2017 年 6 月 19 日下午 5:38
  
  https://arxiv.org/abs/1611.05962
  这里也可以下载到
  
  回复
Lei说道：

2017 年 8 月 11 日下午 11:03

来博士您好，最近自己在做词向量相关的实验，有一个疑问想请教一下；

在训练词向量之前，该怎么处理语料中的特殊符号和标点符号？

我在一些博客中看到，他们使用的是比较规范的语料，标点符号只有逗号，句号等符号。没有特殊符号，有些则是直接使用了没有标点符号的语料。

想请教一下来博士怎么处理这个问题。谢谢！

回复
1. licstar说道：
  
  2017 年 8 月 30 日下午 11:14
  
  分词之后标点符号会单独成“词”，直接训练就好，那些标点符号不会影响结果的。
  
  回复
eason说道：

2017 年 9 月 16 日下午 1:47

博主好~还有一个问题请教一下，常见的词向量模型(word2vec/glove等），面对unseen 词，只能重新训练吗？有没有其他更快的方法获取这些新词的向量表达呢？谢谢！

回复
1. licstar说道：
  
  2017 年 9 月 20 日上午 12:29
  
  英语的话有人用tri-gram（三个字母）做embedding，这样可以处理一些未登录词。类比过来中文应该是用字吧……
  
  回复
Kunhao说道：

2017 年 11 月 30 日下午 7:29

膜拜楼主

回复
曾冠雄说道：

2018 年 4 月 18 日下午 4:57

原来是一个实验室的师兄，大赞！！！

回复
嘎嘎嘎嘎说道：

2018 年 11 月 19 日下午 9:32

博主你好，在文章中第四章公式4.2中β是什么意思呢？

回复
1. licstar说道：
  
  2019 年 4 月 3 日下午 11:59
  
  β用来调节上下文和内部字所占比重的参数。后面图4-5对应的就是调β的实验
  
  回复
沈丽月说道：

2019 年 4 月 25 日上午 9:54

您好，最近刚开始了解词向量，请问关于词向量表示中文词之间的层级关系有什么认识吗？例如动物与猫。谢谢🙏

回复
1. licstar说道：
  
  2019 年 5 月 9 日下午 5:35
  
  纯无监督的词向量好像没发现有哪个工作可以得到这种层级关系的。之前见过一些工作是利用这种层级关系的知识库作为监督信号，优化向量表示的
  
  回复
  1. 沈丽月说道：
    
    2019 年 5 月 18 日下午 10:28
    
    非常感谢您百忙之中的回答。目前针对词向量的训练是不是还属于暴力训练的一种方式，如果想要利用某些核心词去乘以一些权重得到其他的词，去改变这种暴力训练的方式，您有什么看法？
    
    回复
    1. licstar说道：
      
      2019 年 9 月 3 日下午 11:23
      
      感觉最近的趋势反而变得更暴力了，像BERT之类。当然小计算量提升效果确实很值得研究，只是最近没有关注这方面工作了。
      
      回复
沈丽月说道：

2019 年 4 月 25 日下午 6:44

您好，有幸看到您的文章。请问关于词向量表示中文词层级关系您有什么看法？例如动物和猫。

回复
Qu说道：

2019 年 12 月 24 日上午 4:17

博士您好！我问一个很小很小的问题，公式（2.11）中，输出层的分量 y(wi)是一个数值吗，那个偏置b(2)是不是也代表b(2)的一个分量，而不是一个列向量?

回复

licstar的博客

还是licstar的博客

博士论文《基于神经网络的词和文档语义向量表示方法研究》

72 评论

发表回复取消回复

72 评论

发表回复 取消回复

发表回复取消回复