Biweekly[13.04.29-13.05.12]
2013-05-13
【Introduction to Data science】
受吸引于Coursera上数据科学导论的作业安排(Python/R/SQL+Kaggle Competition),我准备跟上这门持续两个月(5月1日到6月30日)的课。果不其然,讲师讲课水平一般,但布置的作业可谓相当有趣。
第一个作业是一个小项目,包括了从twitter上通过Oauth抓取数据流并基于此编写python代码来做文本情感分析,中国学生遇到比较多的问题就是如何抓取twitter数据,GoAgent由于代理IP一致,被twitte限制了,所以我们只好转用VPN,幸好我找到了Green VPN并成功抓取所需数据,后来我也把它推荐给了QQ学习讨论群里的其他人。
第二个作业是在sqlite数据库中设计SQL语句,训练了基本查询、联合查询,进一步地,利用SQL语句进行稀疏矩阵的乘法输出,并且运用于文本相似性度量的计算。这个训练为接下来MapReduce上的编程做足了准备,我以前一直没有意识到SQL语句和关系代数思想在这上面的作用,做完感觉很有收获。
【今日头条】
偶然地在永定一中的网站上看到校友张一鸣和他正在领导开发的应用“今日头条”的介绍。这个应用很神奇,它相当聪明了运用了用户在微博/空间/人人上留下的痕迹,不断通过用户的阅读历史提取新的文章给用户推荐。我惊奇的发现,当我用微博登陆后,它连我以前分享过的文章链接都提取出来进行文本存储和分析了,难怪一上手就极其满意其内容。
友好的UI加上优质的内容,我相信它会成为一个很优秀的推荐系统。我在新浪微博上和他联系上了,有时间好好请教一下其运作方法。
P.S. 张一鸣看起来挺像张初旭的。