话说这次 SD 大会,关于组织方的抱怨声音明显比去年多。不过我个人认为还是满成功的,讨论的气氛比去年好一些(去年也不错)。只不过去年是第一届,CSDN 花了更多功夫(同时也欠缺些经验)。去年的 SD 大会后的几天,还有一些私下的沙龙,今年就没有了(或者我不知道)。
第一天的抱怨最多,因为在九华山庄那个鸟不拉屎的地方,四周什么都没有,院子里的方便面都比外面贵上一倍。会议又是中午开始,不管大家的午饭,很多人是报道完,饿着肚子去听的。会场第一天的大屏幕上小一半都是对没有午饭的抱怨。我估计是赞助商太多,议程安排的太紧了,时间稍微一拖,下面就叫苦连天。我调侃了一句“ CSDN 快餐事业部祝大家吃好喝好”没有显示出来,估计被人工审核墙掉了:)
不过后来 google 的人上台卖他们的手机操作系统,强调开源时,我挖苦了一句,“ Chrome 都开源了,咋就还没有 Linux 版”,居然被讲台上 google 的同学看到了。他告诉大家,Chrome 的 Linux 版和 Mac 马上就要出了。这也算是个意外收获的好消息吧 :)
大家发现讲台上背对着大屏幕讲话的同学其实也在偷偷瞟着屏幕的时候,还是收敛了一点。
btw, 说到开源,对于开放源代码的个人来说,最大的好处就是,如果你的东西真的有用,会不断有人来帮你完善它。比如我前段时间发布的 manualgc,这几天居然收到两个 bug report ,督促我去 fix 它们。那块代码写的满晦涩,我原以为不会有同学去读的,我错了。:D 另外,还有两位同学稍微纠正了一下我写的英文文档里的拙劣的语法错误,在这里一并感谢。
另外就是,这九华山庄的入住退房手续不是一般的慢,工作流程绝对有问题。如果明年还办的话,去北京或上海的城区里找个地儿吧。我就不相信,若大的北京城,就找不到个供大家聚会闲扯的地方来?
国内这么多程序员聚在一起的机会不算太多。这次来北京的人比去年多一些,不过似乎换了一批人。去年认识的都是些在网上没打过交道的同学,而今年碰到了一些从来没见过面的网友,比如猛禽,我常去他那看八卦。见到真人时,还没打招呼,我就觉得见过照片。
我想大多数程序员都很珍惜几天交流的时间的。给我的感觉呢,刚毕业几年的同学会更注重技术细节一些。我们会很容易的找到一个技术点切入,比较详尽的讨论一些具体问题。时间做的久点的技术人员站的层面高一些,会谈产品,谈方向,谈构架,谈技术之外的东西更多。如果程序员抠在技术细节上,我想会更受新人欢迎一些,带小的技术团队也更有人缘;但是,这样的人不会受投资人特别重视(也要看是哪种投资人),大老板们估计很多也不会太喜欢。这是个挺浅显的道理:物以类聚,人以群分。我说的是喜欢或谈的来,从功利角度上讲,投资人或老板会刻意去找这样的纯技术人才,完成特定的事情。
好吧,我想说,大部分时间,我前者的成分多许多。这样是不是显得更年轻:)我觉得,研究技术问题会让人更有活力一些。当然,做的时间越久,也越能说明你是真爱这个,而不是把技术当成达成自己目的的工具。经常会接到新的猎头电话和 email ,让我觉得冬天并没有到来,外面还如火如荼找人做事情呢。大多数猎头会惊异我还在写大量代码,他们没想过他们帮助寻找的职位上的那个人需要亲手编码。我想,这就是国内猎头行业不成熟的地方了。
北京的那几天,跟人扯的最多的是关于搜索技术的。这也是因为我们公司在北京有一支很大的技术团队在做搜索。有道的同事都很热情,挺有干劲。Zhou Feng 是个相当专业的技术带头人。Google 的那场 session 我没去听,后来听说讲走题了,整场都在讲 big table ,让我们的同学挺失望。没做搜索这块,了解的也比较肤浅。搜索引擎的基础设施,外人从 google 的公布的信息看,就是 GFS/Big Table/Map Reduce 。我想,做搜索的一拨人,无论是哪家公司,内部其实都做了这个东西了。只是叫的名字不同。或许也有例外,我有个大学同学在国内某大公司负责搜索一块,据说他们做的就不太完整。不过这两年了解下来,有道内部这些基础设施已经很完备了。文件系统上放着超过一个 P 的数据,每天数据处理任务让上千台机器分布处理。这些的确曾经是 Google 的秘密武器,但是现在已经成为搜索行业的技术基础。
有道就有同学坦承自己的搜索质量不如 Google ,甚至也不如 baidu (纯属某人个人观点,同样在有道,也有同学认为自己做的不错的)。我的个人主观判断,Baidu 的大部分搜索质量是比不过 Google 的,某些特殊需求上比 Google 的强(我不听歌,所以不是指 Mp3 搜索)。至于 youdao ,没特别的比较过。
我们讨论了很长时间关于搜索的话题。谈到算法改善的问题,我这个外行的分析是:既然在既有数学基础上,公式还有大量的参数可以调整,但是我们却得不到这些参数的具体数学意义。就可以去尝试一些随机算法。但是无论是人工神经网络、遗传算法、模拟退火、禁忌搜索,除了大量利用随机因子做大量迭代尽可能的靠近最优解之外。都有一个前提,我们需要知道怎样的解更好。
对于改善搜索结果的质量来说,这一点也是必须的。可质量好不好,目前只能由人去判断。这里有很强的主观因素。这可能是我们采用自动化算法改善搜索质量的最大障碍。我提了个思路:统计每天或每周最热门的搜索词,这些往往是近期的热点。而热点问题在相关的领域肯定会在相关的权威网站中出现。这个所谓权威,不是由机器的 Page Rank 定出来的,而可以是人为去设定的。这些网站相对比较少,所以允许人为指定。然后,我们可以反过来在搜索结果里去统计这些词被搜索时,认为指定的权威网站出现的频率和次序。反过来可以以此来判断,我们对数学公式的参数调整,到底是朝好的方向发展,还是朝差的方向在发展。这样这个参数调整过程,就可以被自动化了。
如果认为为搜索结果做排序依据的数学基础是共通的,即对热点词汇和冷门词汇的检索没有特别巨大的差异,那么这个方法就是可行的。btw, 有道做搜索的同学的一个观点是:搜索引擎的质量好坏不在于能不能检索到相关信息,这个大家都容易做到,而在于能不能把最好的结果排在最前面。
Zhou Feng 同学聊天的兴致也很浓。那天晚上,我教他玩了一盘 RFTG 后已经 11 点了,我们四五个人还是在房间里侃到半夜。聊到搜索技术为公司内部产品服务,衍生了许多一开始意想不到的东西;聊了我们最近在网上谈论的比较多的 OpenID 的问题;聊了公司内部的技术资源分享的问题,Zhou Feng 同学自己在做一个类似 SoureForge 的东西在公司内部用,已经完成了,我这几天才去捧了场,上传了一些代码。当然我个人现在更喜欢 google code 的风格。ps. 网易的人都很技术化,看来不光是我们自己这样想 。
还聊到前几天我比较有兴趣的 XMPP ,嗯,这个东西我们已经在做了,希望明年初就可以拿出来。
必不可少的,关于金融危机这个热门话题,谈论的人也很多。Zhou Feng 同学说,现在连 P&G 的销量都下降了。我说,金融危机居然都导致大家减少洗头发的次数了,看来这链式反应的效应不小。我想呢,其实还有许多人还没有感受到其影响吧,反正我是没有直接感觉到。
只是有趣的是,这两天居然收到广州某大报的财经版的约稿,说我那篇关于 Sell Short 的文章有点意思,希望能谈谈关于做空股票的故事。这让我有点受宠若惊了。身为一个程序员,经济方面的东西我是外行。虽然我在美国股市上赚了点钱,但那是玩儿,而且本人是很反对以功利心去炒股的,也不断的劝告身边的朋友别去碰股票这个东西。所以婉言谢绝了这次约稿。
话说前几天写自己关于做空股票赚了点钱的故事,是很有点虚荣心作祟啦。大家某要被误导。
在我看来,做这个东西心态最重要。摆正位置,理性判断,是赢得游戏的关键。金融市场,短期的预测准确率其实很低,不比你丢硬币高多少。即使是做长期判断,也只是比 50% 高出一点。理论上,只要判断的正确性高出 50% 一点,就可以利用这个赚到钱了。为什么许多人还赔钱呢?那就是因为太不理性,自己违背了赢得游戏的原则。原本每次判断可以有 60% 的正确率,却一再固执己见,连续做出错误判断。所谓股票被套就是一种明显的表现。做出错误判断后,就应该纠正它,尽早做出下一次的独立判断。
理论上说,你做股票,是买入还是卖出,跟你帐户上的股票价格成本完全没有关系,不是吗?因为买入和卖出操作,取决于你对未来股票涨跌的判断。而股票的涨跌,跟你是多少钱买入的股票有关系吗?
其实如果有多余的精力和时间,我更愿意写东西跟大家分享一些我自己学到的有趣的知识。比如美国人创造的各种有趣的金融工具。我是外行,不过正因为是外行,所以明白其中的奥秘后,才方觉得更为有趣。比如说,Option 的买卖,一开始我就没弄明白啥叫 Buy To Open ,什么是 Sell To Close 。弄明白后就觉得挺有意思的。(当然 Option 这个概念不是美国人创造的,美国人在这个基础上又衍生了不少东西)
其实许多金融工具一开始都是为了规避风险用的,只是人的贪念导致了他们反而增加了风险。整个经济学的基础都建立在人都是很贪心的,希望在可能的范畴内获得最大的利益,这也未尝不对。只是何为最大利益这个问题很难定义,比上面提到的,如何定义搜索引擎的结果质量问题更加的难。
我们是看到一天以后,还是看到一年以后,还是看到一百年之后;是看到多大的群体对自己的影响;这些都影响着对“利益”的定义。
我已经慢慢的不太相信还原论了。或者最终我们会得到一个 42 的真理,却不明白 42 是什么。在当下,还是坚持一些简单基本的东西吧,无论是做软件还是做人,KISS 总是好的。
先去洗个澡,等下再接着写。-_-