Biweekly[14.03.03-14.03.16]
2014-03-15
有一天姜南大哥突然给我发QQ消息说博客上互加一下友情链接,然后小小说了一句:“这年头坚持写博很难。”后来回想才感觉到,他应该有在暗示我还是要坚持写点什么,不然几百块钱的空间和域名费就白花了(其实重点是不写作基本就不思考)。
新加坡玩过回来,一星期经历了成都-厦门-龙岩-永定-杭州,终于感觉累的不行。于是开始了我在阿里巴巴崭新的实习生活。如果说腾讯是小资安逸,百度是民工火热,那么阿里应该是介于两者之间的张弛有度。就像腾讯产品是老大,百度技术称王道,阿里巴巴里面似乎就更平衡一些。上面基本都是我的一些道听途说,其实过来后最深恶痛觉的是中午没地方午休,只能趴桌子养神,搞久了我怕搞废了我靠着吃饭的那双手!
说来也快,朝九晚九的两周也就过去了。除了搬进了租的房子、网购了大量东西(每两天平均两个包裹),剩下的大量时间就是磨磨蹭蹭地把WebX熟悉了一下。能用Eclipse/IntelliJ IDEA配合JBoss跑起服务代码,并自己加一些简单的功能。企业级的代码库真是太烦杂了,而且Java本身又引用一堆包(package),这就是我一直讨厌或说害怕的原因,可是现在必须适应。
日常学习外,还参加了一门《机器学习》课堂,密西根州立大学的Prof.Rong Jin是阿里妈妈的算法顾问,于是顺便也在公司内部开了这么一门课。前两节课我就觉得很精彩,而且绝对不是ML零基础就可以听懂的。第一节课我印象最深的是讲到有团队利用TD-Learning(正是我做六子棋时详细研究过的方向)训练机器TD-Gammon,赢得Backgammon人机大赛的世界冠军时,有同学提出——“您为什么不举深蓝(Deep Blue)的例子,它更早就成为了国际象棋的世界冠军”。金教授的解释很充分:第一,深蓝决策的方法是利用搜索树,而Backgammon的搜索空间(大于10的20次方)比国际象棋还要大的多,根本用不了搜索树,深蓝的成功在于说明机器的强大;第二,深蓝的启发式搜索参数来源于棋谱,而TD-Gammon完全是自己跟自己下棋,自学成才——这就是机器学习的魅力呀!
跟大牛交流的乐趣就是在于,他们常常能一两句话击中你的兴奋点。那个兴奋点也许是你以前一直没想明白这东西有什么意义,也许是给出一个从现象到本质的经典模型。上星期六跟涛哥的一次聊天,我跟他说了我毕设+实习想要做的事情——检测虚假交易,他眼珠都不转就啪啦啪啦给我讲了一堆,例如银联刷卡机的MCC套用,最后给我献策出了一个基于社团发现的作弊团队检测模型。也许你们不能体会到这其中的快乐,但我那时候真是感觉棒极了。所以做人,一定要有料!泡妹子更必不可少,我最近就处于基本不懂怎么跟妹子说话的状态,过得太素了。
说说我的毕设吧,到公司后改了一下题目:基于大规模用户行为的交易反欺诈系统设计。用户行为的研究,实际上是人类动力学的范畴,而在线用户行为吸引的研究也越来越多。13年有篇PNAS的研究,就利用Facebook上用户点赞(Like),来预测出这个用户是同性恋还是异性恋(88%),是民主党还是共和党(85%),甚至还有75%的准确率来预测这个用户的年龄。这些行为数据对用户个人信息的补全、信息推荐和异常用户识别都有极大的作用,你看,要是百合网接通了新浪微博、人人网的数据,研究透一个人的转发、点赞,肯定能提升配对率呢。那我做交易反欺诈,跟识别同性恋也有一点像,因为都属于异常发现(同性恋的概率大概在5%上下)。只不过Facebook用了Like信息,我可能会拉取用户的浏览路径。机器学习方法是一块重要的武器,运用复杂网络尤其是二部图进行建模,同样也能发现有价值的信息。具体怎么做,结果如何,过两个月再说吧:)