发布于:2007-12-14 15:13
诺基亚(中国)研究中心亚洲交互方案组的负责人,王霞每天的工作就是与“语言”和“声音”打交道。语音和语言处理技术是这个团队的核心研究领域,其目标就是让用户能自由地与手机交谈,开发用于手机的语音识别、语音合成以及语音翻译技术及应用。
他们开发的“短信听写”(SMS Dictation)能实时地把人的语音转换成文字——这种“动口不动手”的短信息输入方式将在很大程度上节省用户在手机上的操作时间。短信听写只是一个例子,语音技术能解放人的双手,是重要的输入输出手段,在人机交互的许多方面都有用武之地。
在王霞看来,自己所在的研究小组由一两个人起步,发展到现在的10多个人,这本身也代表了该研究的价值。王霞对语音识别技术在未来诺基亚手机中的应用充满了自信和期待,因为在她的信念中有比尔·盖茨的那句话:“语音是下一代的用户界面。”
当然,语音识别系统仅仅是诺基亚(中国)研究中心所从事的诸多应用开发项目之一。在北京和上海,诺基亚的研究中心里有许多类似这样的小团队,它们专注于某个或某一领域内的精巧而彰显智慧的手机应用开发。用这些人的话来说,他们的工作都是诺基亚关注本地化应用体验的一部分。
“手机版”的“智能识别”
目前,手机和计算机俨然已经成为并列的两大应用平台。相比于计算机,手机的特点也决定了在业务应用开发时,要对它的运算处理能力、存储空间乃至功耗都有着更为精准的把握,在丰富应用和系统资源之间需要一种平衡的艺术。
以语音识别系统为例,PC平台上已经有许多商用系统,但几百兆甚至上G字节的语言模型还无法移植到手机上。基于手机的应用开发不光需要向相对匮乏的系统资源妥协,还在于要面对多语言和可用性的挑战,实现同样的识别效果。这就要求更多的精力花在用户研究上,要找出什么是手机用户最关心领域和性能指标,在有限的领域,比如短信息,对系统作优化。
目前,王霞小组的连续短信听写已经移植到了诺基亚的N800终端(PDA,基本配置为320MHz处理器,内存为128MB)上,基本可以实现实时的识别转换。对于更低配置的手机,他们在Symbian平台上也开发了孤立词的识别。
与有声的语音识别相对,对纯文本这一“无声语言”的识别同样商机无限。例如,目前,垃圾短信泛滥是个很现实的问题,在一个完整的通信流程中,网络和手机终端这两个环节都可以对垃圾短信实施拦截。但是对于运营商而言还有一个两难的选择,承担社会责任是必须的,但是以目前的技术能力会导致误拦截,由此也带来了法律风险,这一点让运营商有投鼠忌器的感觉。相比较而言,用户在终端环节上完成短信拦截显然要“安全”许多。在诺基亚,一种被称为“短信分类器”(Message Filter)的应用正在研发当中。它是一种基于文本语言理解的分类器,支持黑白名单和在线监控,这对于垃圾短信制造者来说也许是一个不好的消息。
除了语音和文字,类似于图像识别的手机应用也是诺基亚(中国)研究中心的一个课题——用户利用诺基亚照相手机拍摄任何物体表面上的文字后,安装于该手机上的即时翻译应用程序通过光字符识别技术进行文字的自动抽取和识别,并借助语言处理技术将其翻译成另外一种语言。这在诺基亚被称为即时翻译(Shoot-to-Translate)。
{##pager##}
聚焦互联网应用
早在去年的“Nokia World 2006”大会上,诺基亚方面就宣称:“诺基亚渴望站在这一新时代的前沿,并成为真正融合互联网和移动性的公司。”进入到2007年,诺基亚明显加快了向互联网转型的速度。
2007年8月29日下午6点,诺基亚的互联网服务门户——“Ovi”在英国伦敦、新加坡和中国广州三地同时上线,它包括了诺基亚音乐商店、诺基亚地图和N-Gage 游戏等多种服务。和传统的网站不同,Ovi支持电脑和手机等多种终端接入,并且具备了社区交互功能。
随后诺基亚又旋风般地开始了面向互联网战略的一系列收购与合作。9月,诺基亚完成了对一家名为Enpocket的移动广告公司的收购;10月,诺基亚宣布将以81亿美元收购美国数字地图供应商Navteq(这是诺基亚历史上规模最大的收购交易之一);12月,诺基亚与全球第一大音乐集团环球唱片公司达成一项协议。根据这项协议,诺基亚将为其音乐手机用户免费提供一年的音乐下载服务。
另外,诺基亚在具体的应用开发上也开始向自己的互联网战略靠拢。“维信”与“行学一族”的推出就是该战略的一部分。
“维信”诞生于诺基亚内部被称为一个“新兴业务部”(Emerging Business Unit)的部门。维信最大的好处就是个人定制和实时交互,它允许用户在手机上创建、发表、使用和分享自己所喜爱的互联网内容。用户可以通过挑选自己所需要的“精灵程序”来实现个性化的互联网体验,并且它可以在绝大多数手机品牌和型号上运行。在诺基亚的理解中,维信的工作模式将成为下一代手机交互页面的主流。截止到今年11月,维信的全球用户已经突破400万大关,其中在中国,自5月底正式发布以来,不到半年用户就突破了110万用户。
“行学一族”是中国第一个互动在线移动学习服务,以文字、图形和声音呈现。它整合了众多权威教育和出版机构的学习内容,融合移动通信和互联网的优势,以实时和互联为特色,使边走边学、随时随地学习和交互学习真正成为可能。手机的随身性使“行学一族”的用户可以更加有效利用时间和空间。此外,用户还可以通过手机从互联网上下载最新的学习信息,并通过互动的“行学社区”向名师求教,接受他们资深的学习指导;或者与“族人”沟通,自发组织兴趣小组,一起探讨学习之道。
可以看到,无论是诺基亚的基于“单机”的应用开发,如多媒体识别技术,还是基于互联网平台的应用开发,在未来都存在交叉融合的可能,无论是语音、文字、图像识别还是类似“行学一族”的互联网应用,这些目前被定义到不同场景的“应用矩阵”,会随着硬件技术的演进和市场需求的变化而相互移植和渗透。届时,在这些应用的区隔被“打通”之后,也许会催生出更为强大的应用。