博士论文《基于神经网络的词和文档语义向量表示方法研究》

前前后后写论文也有将近一年的时间了。这个研究的课题到目前还比较热门,在此分享博士论文。希望读者有所收获,少走一些弯路。

论文下载地址:http://pan.baidu.com/s/1jGWmmZO

感谢赵老师的指导,以及各位老师同学的宝贵建议!

有什么疑问或者发现什么问题都可以直接在这里评论。

39 评论

  1. 拜读了来老师的大作,收获颇丰!关于字词向量有一个问题想确认下:
    对比W2V,论文中的字词向量是不是 W2V的句子Corpus+单词组成新Corpus,W2V的单词Vocabulary+汉字组成新Vocabulary。

  2. 博主好,我最近在研究微软的CNTK,感谢您的论文,受益匪浅。我偶尔也会写些有关CNTK使用方面以及基本原理方面的文章,今天获得您的文章感觉受益匪浅,未来可能会推荐给其他人,如遇到引用您文章中的内容,我会声明出处尊重版权。再次感谢您论文中的内容给我的启发。

      1. 作者你好,论文中“基于字词联合训练的文中表示”一章,有在哪个会议上发表么?对于中文词表示这块,我想再研读一下。

  3. 快速读完了作品,很棒的一个word embedding及其相关领域的应用。
    有几个问题请教:
    第2、3章的内容全都是在英文上进行的,为什么没有太多word embedding在中文上的对比呢?
    另外就是关于glove与word2vec在中文上的比较如何呢?
    基于中文字的word embedding在文本分类、句子分类、NER等的表现如何呢?

    我特别关注中文的原因是因为大部分的高水平文章都是在英文集上的,中文由于特有的语义而缺少更多的实验结果来分享。

    1. 最真实的理由,没做中文,就是因为做英文的容易发论文……实验工作量太大,就没想再补中文的了。
      自认为做的那些分析没有哪一点是针对英文的,所以可能中文也是类似的效果。不过你质疑的很有道理,毕竟没有实验支撑,估计就只能是猜想了。
      字直接做文本分类效果很难好吧,做NER可能也需要bi-gram的embedding才能超过传统方法,纯用字的embedding前两年的效果都还不太行。也有一年多没关注了,您可以查查最新论文。

  4. 您好,之前下载了您论文,想不到今天看到你的博客才知道是您写的。我有个问题想看看你的思路,我想能否利用word2vec在关键词聚类后,生成每一类别的主题词呢?

    1. 主题词这个应该是主题模型生成的吧。如果一定要找一些类别里有代表性的词,可以先试试高频词或者靠近类别中心的。我也没试过以上纯属YY。

  5. 您好,看了您的论文受益良多。 有个疑问想请教下,论文第五章循环卷积网络的输入词向量是通过维基语料训练好的。比如由维基语料训练得到 apple的词向量为T,那么对train和test中的单词apple的词向量都取T,是这样的吗?

  6. 莱博士,你好,认真拜读了您的大作《Recurrent Convolutional Neural
    Networks for Text Classification》,能分享一下这篇文章的代码吗,感激不尽。

发表评论

电子邮件地址不会被公开。 必填项已用*标注