辛卯年乙未月己巳日,大局已定。仿三国演义,记下赛事五回。

第一回 山中有寨柠檬香,邪道异术出山狂
第二回 绝世秘籍未相传,独门小式败探花
第三回 光阴有痕巧破译,大象无形气莫测
第四回 山穷水尽疑无路,九易参数又一村
第五回 强强联合遇强敌,人品爆发显王道

继续阅读

  科研间隙,突然想验证一下@郑渊洁提出的公蓝北京、风蓝北京。遂从twitter上抓取美帝使馆数据,并做了一些简单的统计分析。
  统计数据为从去年11月21日至今的共100多天的空气质量数据与风力数据。先上图。


  在PM2.5随时间变化情况图中,我将数据分为工作日和非工作日统计(考虑节假日调休)。很明显,天亮期间休息天的空气质量要明显好于工作日的,从侧面体现了“公蓝北京”。在这样的统计规律下,把户外锻炼的时间安排到周末也是非常合适的~另外有个值得注意的,晚间的空气比白天明显要差,网上能找到很多介绍,如大气对流、植物的净化作用等等。不管怎样,在数据面前,早起锻炼和晚上睡觉前跑个步,都是不合理的。

继续阅读

  从一年前的计算语言学作业开始,我一直没明白,为什么我写的二元语法分词要比一元语法差。两天来我仔细分析了一下之前的实验细节,发现二元语法分词要超过一元语法,可以有两种方式:1.超大的语料;2.强大的平滑算法。

  实验采用北大人民日报1-6月语料,大约700万字,选其中90%作为训练数据,另外10%作为测试数据。先看下实验结果:

分词方法准确率召回率F值
最大正向匹配0.90400.91890.9114
一元语法0.92800.95020.9389
二元语法(+1平滑) 0.90930.92760.9184
二元语法(+eps平滑)0.91020.95290.9311
二元语法(删除插值)0.93170.96150.9463

继续阅读