博士论文《基于神经网络的词和文档语义向量表示方法研究》

前前后后写论文也有将近一年的时间了。这个研究的课题到目前还比较热门,在此分享博士论文。希望读者有所收获,少走一些弯路。

论文下载地址:http://pan.baidu.com/s/1jGWmmZO
arXiv 地址:https://arxiv.org/abs/1611.05962

感谢赵老师的指导,以及各位老师同学的宝贵建议!

有什么疑问或者发现什么问题都可以直接在这里评论。

72 评论

  1. 拜读了来老师的大作,收获颇丰!关于字词向量有一个问题想确认下:
    对比W2V,论文中的字词向量是不是 W2V的句子Corpus+单词组成新Corpus,W2V的单词Vocabulary+汉字组成新Vocabulary。

  2. 博主好,我最近在研究微软的CNTK,感谢您的论文,受益匪浅。我偶尔也会写些有关CNTK使用方面以及基本原理方面的文章,今天获得您的文章感觉受益匪浅,未来可能会推荐给其他人,如遇到引用您文章中的内容,我会声明出处尊重版权。再次感谢您论文中的内容给我的启发。

      1. 作者你好,论文中“基于字词联合训练的文中表示”一章,有在哪个会议上发表么?对于中文词表示这块,我想再研读一下。

  3. 快速读完了作品,很棒的一个word embedding及其相关领域的应用。
    有几个问题请教:
    第2、3章的内容全都是在英文上进行的,为什么没有太多word embedding在中文上的对比呢?
    另外就是关于glove与word2vec在中文上的比较如何呢?
    基于中文字的word embedding在文本分类、句子分类、NER等的表现如何呢?

    我特别关注中文的原因是因为大部分的高水平文章都是在英文集上的,中文由于特有的语义而缺少更多的实验结果来分享。

    1. 最真实的理由,没做中文,就是因为做英文的容易发论文……实验工作量太大,就没想再补中文的了。
      自认为做的那些分析没有哪一点是针对英文的,所以可能中文也是类似的效果。不过你质疑的很有道理,毕竟没有实验支撑,估计就只能是猜想了。
      字直接做文本分类效果很难好吧,做NER可能也需要bi-gram的embedding才能超过传统方法,纯用字的embedding前两年的效果都还不太行。也有一年多没关注了,您可以查查最新论文。

  4. 您好,之前下载了您论文,想不到今天看到你的博客才知道是您写的。我有个问题想看看你的思路,我想能否利用word2vec在关键词聚类后,生成每一类别的主题词呢?

    1. 主题词这个应该是主题模型生成的吧。如果一定要找一些类别里有代表性的词,可以先试试高频词或者靠近类别中心的。我也没试过以上纯属YY。

  5. 您好,看了您的论文受益良多。 有个疑问想请教下,论文第五章循环卷积网络的输入词向量是通过维基语料训练好的。比如由维基语料训练得到 apple的词向量为T,那么对train和test中的单词apple的词向量都取T,是这样的吗?

  6. 莱博士,你好,认真拜读了您的大作《Recurrent Convolutional Neural
    Networks for Text Classification》,能分享一下这篇文章的代码吗,感激不尽。

  7. 您好,看了您的这篇论文《Recurrent Convolutional Neural Networks for Text Classification》之后,并且下载了您的代码编译运行了下,用您提供的斯坦福情感树库语料运行没有问题,但是我试了一下自己的汉语语料,运行出现如下错误,iim@iim-Precision-T7610:~/rcnn$ ./ecnn-noada trainvector.txt traindata.txt questest.txt 5 0 0 0 90 >log.txt
    段错误 (核心已转储)
    请问这个问题该怎么解决呢?百度了说是指针溢出,可是源码太多,我也看不懂,能麻烦您帮忙解决一下吗?谢谢

  8. 来博士,我最近在看stanford的cs224d Depp learning for NLP,。在对照着它的note和你的毕业论文看的时候,发现你描述的cbow 和 skip-gram 模型是没有隐层的,但是它的note里面是有的,是有两种说法和解释吗?

      1. 哦我后来看明白了,那个写note的教授并没有直接拿word 的embedded vector作为输入,而是用了一个one-hot 的representation。所以它多了一个隐层来把one-hot转化成embedded。

  9. 博主您好 作为一名今年即将毕业的科学院博士生,本人很想拜读下您的高作 无奈我这里上不了百度网盘,如果方便的话,请将您的高作发一份我的邮箱 konguestc@163.com
    万分感谢!!!

  10. 您好,请问论文中神经网络图中的公式和文字是怎么添加的呢,尤其是公式,因为我点了论文上的图,文字、公式和神经网络图好像不是一体的,谢谢。

  11. 博士您好! 最近在关注embedding方面的东西, 看了您的论文收益很大。 有一点疑问不是很明白,如下:
    “词向量是神经语言模型的副产品”,词向量具体怎么学到的?
    在NNLM里面,词向量是被存到|e| * |V| 的矩阵里面,那这个矩阵也会通过BP去更新吗? 您论文中(P13)指出θ为模型中的所有参数,包括词向量和网络结构中的权重 U、H、b(1)、b(2),这里并没有词向量的矩阵,所以不太明白是在哪一步学习了词向量e这个副产品? 此外在开始e是被随机初始化的吗?
    谢谢博士啦!

  12. 又阅读了您的http://licstar.net/archives/328 及其评论,大致确认了NNLM里面的词向量矩阵也会被作为参数训练,谢谢,受益匪浅

  13. 感谢博主的分享~之前写本科毕设和硕士小论文的时候就多次从你的博文中学习,现在有博士论文的特别想拜读,但是百度网盘我进去发现找不到了,求发~我邮箱:wangjileiRUC_at_163.com,谢谢~

  14. 来博士您好,最近自己在做词向量相关的实验,有一个疑问想请教一下;

    在训练词向量之前,该怎么处理语料中的特殊符号和标点符号?

    我在一些博客中看到,他们使用的是比较规范的语料,标点符号只有逗号,句号等符号。没有特殊符号,有些则是直接使用了没有标点符号的语料。

    想请教一下来博士怎么处理这个问题。谢谢!

  15. 博主好~还有一个问题请教一下,常见的词向量模型(word2vec/glove等),面对unseen 词,只能重新训练吗?有没有其他更快的方法获取这些新词的向量表达呢?谢谢!

    1. 英语的话有人用tri-gram(三个字母)做embedding,这样可以处理一些未登录词。类比过来中文应该是用字吧……

  16. 您好,最近刚开始了解词向量,请问关于词向量表示中文词之间的层级关系有什么认识吗?例如动物与猫。谢谢🙏

    1. 纯无监督的词向量好像没发现有哪个工作可以得到这种层级关系的。之前见过一些工作是利用这种层级关系的知识库作为监督信号,优化向量表示的

      1. 非常感谢您百忙之中的回答。目前针对词向量的训练是不是还属于暴力训练的一种方式,如果想要利用某些核心词去乘以一些权重得到其他的词,去改变这种暴力训练的方式,您有什么看法?

        1. 感觉最近的趋势反而变得更暴力了,像BERT之类。当然小计算量提升效果确实很值得研究,只是最近没有关注这方面工作了。

  17. 博士您好!我问一个很小很小的问题,公式(2.11)中,输出层的分量 y(wi)是一个数值吗,那个偏置b(2)是不是也代表b(2)的一个分量,而不是一个列向量?

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注