辛卯年乙未月己巳日,大局已定。仿三国演义,记下赛事五回。
第一回 山中有寨柠檬香,邪道异术出山狂
第二回 绝世秘籍未相传,独门小式败探花
第三回 光阴有痕巧破译,大象无形气莫测
第四回 山穷水尽疑无路,九易参数又一村
第五回 强强联合遇强敌,人品爆发显王道
辛卯年乙未月己巳日,大局已定。仿三国演义,记下赛事五回。
第一回 山中有寨柠檬香,邪道异术出山狂
第二回 绝世秘籍未相传,独门小式败探花
第三回 光阴有痕巧破译,大象无形气莫测
第四回 山穷水尽疑无路,九易参数又一村
第五回 强强联合遇强敌,人品爆发显王道
从一年前的计算语言学作业开始,我一直没明白,为什么我写的二元语法分词要比一元语法差。两天来我仔细分析了一下之前的实验细节,发现二元语法分词要超过一元语法,可以有两种方式:1.超大的语料;2.强大的平滑算法。
实验采用北大人民日报1-6月语料,大约700万字,选其中90%作为训练数据,另外10%作为测试数据。先看下实验结果:
分词方法 | 准确率 | 召回率 | F值 |
---|---|---|---|
最大正向匹配 | 0.9040 | 0.9189 | 0.9114 |
一元语法 | 0.9280 | 0.9502 | 0.9389 |
二元语法(+1平滑) | 0.9093 | 0.9276 | 0.9184 |
二元语法(+eps平滑) | 0.9102 | 0.9529 | 0.9311 |
二元语法(删除插值) | 0.9317 | 0.9615 | 0.9463 |