• 如果未来十年没有什么电磁风暴导致科技倒退的话,中国互联网的趋势如下:

    四大

    阿里巴巴集团  淘宝 支付宝
    优势:电子商务业务根深叶茂,淘宝和支付宝已经深入网民的金融生活圈。
    注意:需要担心的是规模扩张后的政策性风险,特别是金融方面。

    腾讯
    优势:具有将功能转化为商品的天赋,以IM为基础,从跟随者逐渐成长为一个领导者。IM作为信息终端永远是他们的命脉,只要他们能保持这一点,就会一直成功。
    注意:用户群体在这10年已经成长了,他们会转移吗?——腾讯也开始做一些向上层次的转型,而作为命脉的IM产品,在未来变成什么,有还是没有,是需要他们去好好把握的。

    盛大
    优势:从网络游戏扩张至网络娱乐行业,吸收了很多优质公司和业务,多元化战略布局长远。
    注意:需要担心的是各种松散产品业务之间的整合问题。

    百度
    优势:搜索为基础的信息索引帝国,在搜索相关衍生产品上很出色。
    注意:我想他们会考虑更多行业方向的拓展,但是他们离开搜索的产品做的不是很好。

    四新

    新浪
    好吧,新浪不算新秀也好,作为一个传统型的门户网站,新浪的产品发展速度是门户站里最快的,因为资源优势,也是最成功的。他们正处于新旧交替的阶段,新的观念和策略正在慢慢给它带来变革。

    优酷
    也许一年前或者两年前,优酷和土豆还在一起条起跑线上,可是现在已经不是一个数量级了。优酷对产品的整合优化,和开发速度越来越快,他们正在整合更多资源,跨越出youku本身的业务范围。搜索,分享都做的非常开放,这使得他们的影响力几何数增长,我相信他们会很快上市。

    人人
    同为SNS,人人的开放性首先帮了一个大忙,其次用户群体又帮了一个忙——大学生群体是富有创造力的,不管是什么年代的社区,社区文化都是首要的问题,人人已经有了自己的富有活力的社区文化。人人会胜于开心网——胜过开心封闭自负的策略,只是时间问题,当然,开心网不会死。

    豆瓣
    豆瓣的改版已经谋划了更大的布局和架构,一切都很好,豆瓣会很好。

    四型

    SNS(包括微博和各类信息分享应用),IM移动终端(包括IM、语音和视频通讯、智能手机),云同步和电子商务是未来的四大主流产品方向。

    2010-09-21 更新
    整个2010年,我和Gotit都没怎么照顾这个blog,然后我换了工作。互联网的变化很快,但是我想我在上篇文章里说的没有错。
    至少,这四大公司的一下产品是应当关注的。接下来我会更着重关注在SNS和移动终端这方面的产品。

  • 我这里所说的SNS模型不是指在这样的网站(点评网,口碑网,咕嘟妈咪)里塞一个SNS社区了事,例如VeryCD里的UCenter一样——我说的不是那种。

    先看看标准的SNS,例如人人网
    人与人之间有紧密的联系,互相联系,一个人的事件,通过人际关系节点传递出去,甲传递给乙,乙传递给丙,虽然传递会有损耗,但是由于互联网传播成本低,只要某一事件的传播动力达到临界点,就能够产生广泛影响。即便没有广泛影响,也会比口头传播有效。

     

     

    再看一个美食网站:咕嘟妈咪
    单个店铺个体是组成这个网站的细胞单元,但是它们彼此独立,通过分类和搜索来查询。

     

     

    豆瓣——我心中架构做的最好的站
    豆瓣的书和书相关联,影片会和影片联系起来,音乐和音乐彼此连接,人又和前三者彼此联系,构成一个复杂的网络。一个人的事件在这个网格中,传播路径比SNS更广,更远,通过它们精妙的算法,传播的也最有效。

     

     

     

    那么,如果我们把店铺看做一个SNS的单元呢。一个店相当于一个人,一堆连锁店和分店组合在一起相当于一个群组,人通过人的特征分类,店也可以通过店的特征分类。那么店铺能不能组成一个SNS式的网络架构呢?

    优势:信息的联系更有效,用户更容易寻找到合适的信息。
    劣势:店铺不是用户,它脱离于用户,单纯的店铺网络和用户还是隔绝的,店铺之间的信息传递没有人的参与。

    那么,假设我们把人和店铺都看做SNS中的一个节点呢,唯一的不同是店铺不会转发传递信息,用户可能会,那么就把就把店铺当做一个惰性用户——SNS这样的人也不是没有。而店铺是可以产生信息的。

    我知道,现在有很多企业公司品牌什么的都在SNS里建立主页来招揽粉丝,其实就这个意思,但是并不彻底。如果彻底的,比如说把大众点评的店铺和用户全部打碎了,混成一个SNS会是啥感觉。

  • 评分分布和IMDB的公式 - [研究]

    2009-11-30 | Tag:Tea

    这篇文章是Gotitea研究:现有商品的评分体系不完美的后续。


    首先,我们来看看一个网站的评分到底是怎样的。
    上一次的文章里提到关于Youtube和土豆的视频分数的曲线状况(youtube的曲线土豆的曲线)这一次,我收集到了一个国内点评网站对点评对象产生的分数数据。这些分数是通过用户对某一商户打出的平均分来产生的,没有复杂的计算公式,只是当评分用户数量不足时不计算而已。

    在一个特定地理区域内,我抽取了12783个样本,将分数转换成了5分制,也就是说以1分为最低分,5分为最高分。统计了这些样本的分数分布规律。另外,在12783个样本中有1395个推荐样本,所谓推荐样本,就是这些样本在网站上通过广告宣传的方式引导用户消费并进行点评,这些样本做了单独的统计。


    下面是土豆的,和youtube相似


    从图中我们看到,我抽取的样本的分布和正态分布的相似,另外推荐的样本分数的呈现的曲线也是正态分布,而最低分和平均分高于总体水平,也就是说被推荐的商户确实是值得被推荐的,或者因为被推荐的关系促使商户自律,使得用户产生了更好的评价。

     

    所以,我们假设这样一个结论,比起娱乐类型的评分体系来说,消费类型的评分,用户更注重自己评分的权利——因为他们付钱了,或者可能会付钱去消费。(也许背后可能还有各种原因夹杂影响)

    另外,我看一下IMDB的分数公式
    IMDB的TOP250的电影排名采用的是“贝叶斯统计法”(true Bayesian estimate)公式为:
    公式来源和TOP250排名>
    weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
     
    网上去查询的话,都是给出的这个公式,但实际上我认为这样写更容易理解:
    加权平均分(WR) = (v × R + m × C)  ÷ (v + m) 
    • R = average for the movie (mean) = (Rating)
    • v = number of votes for the movie = (votes)
    • m = minimum votes required to be listed in the Top 250 (currently 1500)
    • C = the mean vote across the whole report (currently 6.9)

    我们可以看到,通过这个计算方式,电影的平均分R被影响了。这里举一个例子,《肖申克的救赎》这部片子在页面上的分数为9.2,但是在TOP250的分数是9.1。某种程度上来说,TOP250是不会产生满分电影的。

     

    另外这个公式的注释:for the Top 250, only votes from regular voters are considered.
    注释表明只有‘regular voters‘的投票才会被计算在IMDB top 250之内,这就是IMDB防御无效或者作弊的用户投票改变top 250结果,把top 250尽量限制在资深影迷投票范围内的主要方法。
    TOP250的排名有一个有趣的案例,就是《蝙蝠侠:黑暗骑士》和《教父》的分数之战,可以被看作粉丝影响评分的典型。

    通过上面的例子,我们可以看到一些评分体系的现状,也有网站设计了更有效的公式来改良这一体系,但是否有一个公式化的公式体系,来帮助我们快速的衡量一个网站怎样去建立评分体系,以及如何设计对于的用户体验功能,这是我在继续探索的命题。
  • 选拔比赛模型

    选拔比赛,其目的一方面是选拔有潜力的人力资源,这些人力资源可以创造出巨大价值;另外一方面是选拔主办方通过这个大规模的活动来产生影响力,达到既定商业目标。新概念作文大赛不仅选拔出了韩寒,郭敬明,张悦然等等一批80后作家,也使得萌芽重新成为一本优秀的青年文学平台。
    假定说在某个时间段,某个限定范围内的有潜质的优秀人才是一个固定数量,这些人才没有能够通过现有的选拔机制得到认可,并且这些人也拥有展现个人才能的需求,会主动的寻找平台。选拔的质量和潜在的人才数量呈正比,和选拔范围成正比。

    应具备的条件

    1 前期环境的准备
    在一个大环境下,现有的条件无法很好的甄选潜在的优秀者,而这些优秀者迫切的需要一个竞争性的环境来证明自己的能力。演唱比赛也好,文学比赛也好,需要大约10年到5年的时间,来培养一批萌芽。这些优秀的种子需要一个自由的环境去积累自己的才能,说到新概念作文比赛的话,90年代甚至是一个黄金时期,经济环境的稳定和社会文化的积累都达到了一个舒适的指数,比起新世纪后网络带来的浮躁,这个时代的年轻人更能深入思考。但是这个时代还没有一个合适的平台给这些想“成名要乘早”的年轻人展示自己。
    2 切合需求的选拔规则
    作为创新的选拔方式,一定是要规避当前选拔规则没有顾及到的漏洞,能够发掘以往规则被忽略的潜力人才。

    3 相关受众的知名度和接受度
    我们可以举一个例子,2004年超级女声举行的时候,影响范围还不够广泛,大多数人面对这样的比赛,因为不熟悉而保持观望的态度,可以说是一次试探。这一届的参赛选手的影响力也不及第二届,第二届成为了超级女声比赛的最高峰。

    4 可满足需求的展示平台
    对于新概念作文比赛来说,就是萌芽以及高考特招平台,对于超级女声则是湖南卫视,娱乐业和唱片业。

    5 适度的周期
    如果你不是只举办一次,那么一定要注意保持合适的选拔周期。如果前四项条件被充分满足,第一届选秀式比赛开始的时候,将是最激烈的,选拔质量也将是最高的。过于激烈的竞争则会导致后续无人,人才的成长存在一个时间段的长短,不能涸泽而渔。
    2005年超女选秀的高峰过去之后,2006年就进入了一个低谷,停办的原因有很多种,但是休息两年之后再开始的2009快乐女声,在一定程度上避免了新人才枯竭的可能。不过即使这样也存在不少的“回锅肉”选手,她们能够重新杀入比赛并进入较高的名词,一方面就说明当届的选手平均水平低于前届。

    如何利用选拔模型使网站用户产生内容

    如果你在运营一个用户产生内容的(user generated content)网站,那么我们可以借鉴选拔模型来挑选优秀的内容提供者,他们同时可以给网站和用户带来利益。在blogbus,也就是我这个blog所使用的服务商,他们拥有大量优秀的blog内容产生者,比起sina的名人博客而言,blogbus自己形成了一种不同于其的生活化的,文艺的氛围。对于一个网站来说,如何将那些有价值用户发掘并利用是一个时时刻刻都需要思考的问题。这个模型很简单,基本上谁都可以发现这个规律,但是要真正的做好并不容易。

    你知道你的用户群具备哪种优秀的潜力么?
    他们善于创造文字内容,还是图片内容,或者是其他的内容方式。拥有这些内容的出产者,在你的网站上是否已经被满足了,或者还未被满足。那些不能在你的平台得到满足的人,他们可能会迁移到其他地方去。而这些用户的内容潜力,是不是与网站的利益需求是吻合的。一个生活圈网站冒出两篇财经专家的文章虽然很有价值但是调性不符。

    你能找到一个合适的选拔规则吗?
    在设计网站上我们常常看到全民投票的选拔方式,这个方式常常令人伤心,一些看上去几乎是废品的设计会有高票数,一方面主办方没有诚意,一方面这选拔规则并不能真正的选拔出需要的人力资源。其实互联网的选拔方式有一个有点和一个缺点。
    优点是可以和每一个参与者,观众来互动。普通的电视选拔等方式观众永远是观看着,为了弥补传统方式的不足,才出现了全民短信投票,大众评审以及线上粉丝团的讨论区来做补充。
    缺点是线上选拔的时候,参与者的注意力不集中。电视节目几个小时,参与者是完全只做这一件事情,线上选拔需要参与的就是一个点,当用户互动之后,他可以去睡觉,去打游戏,想起来的时候再回来看看选拔进程。由于不是全心全意的集中参与,也会出现一些沟通上的不通畅,以及选拔质量的下降。

    你的平台能让用户有成就感吗?
    你的网站能给予用户成就感吗,成就感并不意味你的网站或者渠道要足够大,足够知名。在小众的论坛圈子里举行一个选拔赛,参与者依然会充满成就感,也许在一个全国性的网站举行一个比赛,参与者也不会觉得就真的被满足了。
    但如果选拔的目的不是为用户产生内容,也不要按这个规则套,是套不进来的——比如说做一个“最美前台MM”的选拔。

    类似起点中文网这样的网站,是最合适的参考例子。
    即使考虑好了这三个问题,那么宣传渠道等运营方案还要等着去解决,理论永远都是执行的备忘录,不是神奇咒语,念了就灵。执行还得靠自己的手脚去行动。
  • 如果我们把商品/视频都统称为一个网站的内容。
    内容的推送、寻找、分类、筛选的方式有以下四种形式分类,或多或少的,同时并存。

    一。用户自选
    这一种方式用户具有最大的主动权,网站通过设计清晰的分类导航和站内搜索系统,让用户通过自己的意愿,在网站上寻找到他需要的内容信息。

    优点:条理清晰,简便有效。
    缺点:是否能找到精确的信息,一方面取决于用户对信息的归类方式和搜索关键词的组织,一方面取决于网站对信息的归类和关键词的组织。如果两方对同一内容的需求和理解不一致,,一个信息内容,网站归如A类别,用户认为B类别可以找到,那么一定是无功而返。那么这个信息应该打A,B两个Tag,归入两个类别。搜索也是同样的缘故,要在搜索的索引中将可能被用户查询的信息都提供完全。最后,大量的分类和冗杂的搜索信息积累下去,反而又从精确变成了模糊。
    于是人们发现,各大搜索引擎上的关键词越来越长

    总结:作为最基础的方式,没有网站不会提供这个功能,至少都有对信息的分类导航。

    二。审核匹配
    审核是指对内容进行审核筛选,诸如通过评分体系,浏览量,点击率,时间和等等其他一些因素,给与大量同类信息进行排序和权重区分,来判断这个内容对用户的需要程度高低,在分类列表或者搜索结果里,将最可能的用户需求信息最先或者最明显陈列给用户。

    优点:为第一种方式做补充,通过规则对信息进行排序和过滤,降低大多数用户的搜寻成本。
    缺点:这是一种少数服从多数的匹配方式,即默认需要信息的用户是“大多数用户”,忽视和无视“少数用户”的需求。而评分体系也有体系的问题,让用户进行评分,并不会产生理想化分数,专业评分又缺乏民主性。
    关于商品分数的问题,我在另外一篇文章里做过讨论——现有商品的评分体系不完美
    另外,YouTube也得出了结论说,评分的分布并非理想化的。

    总结:在这个匹配体系里,最大需求被最大满足,最小需求被无视,从损益综合来讲是最优解,但是当这个社会的个性化需求越来越强烈的时候,长尾上的用户需求就没有明显的顺序了,完全是一小撮用户有一小撮不同的需求,而且他们加起来就是一个不可忽视的长尾,怎么给他们推送内容信息呢。

    三。个性化匹配
    通过多维度的了解用户的偏好,对用户的信息需求进行匹配。喜欢喝果汁的人通过“苹果”这个词首先查看的是“苹果汁”相关信息,而一个“果粉”通过“苹果”这个词首先找到“苹果电脑”。怎样去定义一个用户个性维度,一般有两种方式。
    一种叫做“物以类聚”:
    是通过它喜欢的内容来预估。豆瓣在个性化匹配上做的很不错,它能给用户推非常精准的书籍,电影等等。所以豆瓣需要先了解你喜欢的是什么类型的内容,你需要不断的积累你喜欢的内容,它就越精准的将相似的内容给你。

    另外一种是“人以群分”:
    通过你的交际圈来预估。信息的传统流转途径就是通过“群分”的人来进行的,信息共享首先是在圈子和圈子内,兴趣相同的人之间传播,所以这是一个朴素的方法,通过互联网技术提高了传播效率。豆瓣也会告知用户他的好友在关注的东西和搜集的信息,最典型的还是类似开心网这样以人际关系为基础的SNS网站。你的朋友们显然比计算机算法更了解你,他们主动推荐给你,或者他们自己喜欢的信息,相信你也会感兴趣。

    优点:更精准的匹配,也更加有效
    缺点:马太效应(Matthew Effect),好的愈好,坏的愈坏,多的愈多,少的愈少。举一个例子来说明,我在Google Reader订阅了大量的UED相关的blog,结果它就自动推荐UED相关的blog给我,但是我已经订阅够了,我倒是很想看一些写八卦小文的订阅源,但是很难找到。我也不能通过”写八卦小文的订阅源“这个关键词找到合适的Blog。
    总结:最精准,但是最容易走偏锋

    四。无差别推送
    所谓无差别就是,管你是谁,都给你们传递一样的信息。

    优点:省事,直接,干脆
    缺点:容易被用户厌恶
    总结:也有效果

    大体上,我总结出来的就这四种方式,各有优劣,至于如何运用,在不同的情景则有不同的具体方式,这个多一些,那个多一些。

    因为之前的文章《土豆网的饥饿感与创造力》,署名为cronish的中肯评论说“土豆相关视频的推荐机制有问题,不解决这个核心的推荐机制,只是单单作个页面位置上的改动是失败的产品改动。”于是我想借此缘由,研究一下如何才能最好的推送内容匹配给用户。

    大概会成为连载。