您的位置 主页 > C烛生活 >从婴儿身上学到的事 >

从婴儿身上学到的事

從嬰兒身上學到的事

迎接巨量资料纪元的来临!

「巨量资料」(big data)是近年崛起的新名词,泛指因为网际网路、社群网站,以及许多网路上多媒体服务的兴起,所迅速产生与累积的资料。这些资料不仅量大、形式互异(如文字、图像、影片),更以惊人的速度产生。如何善用这些巨量资料来从事预测与分析,成为资讯科学家非常关心的议题。

美国麻省理工学院多媒体实验室的教授罗伊(Deb Roy)自2005年起开始了「人类语音之家」(human speechome)计画,利用录影及录音的方式,记录自己小孩出生之后三年的活动,进而用这些资料研究人类如何学习语言。他在家中布建了10几台全方位录影机以及10多个收音麦克风,希望能够把父母、婴儿以及保姆的行动与对话都录下来。数年内共累积了12万小时的声音及9万小时的影像,其中涵盖了小婴儿70%清醒时间的活动记录。

这些资料堪称有史以来对单一个体最完整的记录,总共佔了250TB的硬碟空间。在开始分析之前,罗伊的团队还需要帮这些资料加上标记。例如需要辨识小婴儿听到跟讲出的声音,并产生文字档。然而,现今的语音辨识技术还无法準确辨识婴儿的语音,对于辨识离麦克风较远的成人声音精确度也有待加强。所以他们团队製作了一个「半自动」的语音标记模组,利用电脑过滤杂讯以及非语音讯号,并把音波自动接成一个一个单元,以增加人工辨识的速度与精确度。最后他们总共辨识了800万个字。此外,他们还利用视讯资料标记了这个小婴儿每段时间的位置以及他是否醒着,这样的资讯,有助于之后判断他有没有听到大人的某段对话。

一开始,罗伊团队希望能够从这些资料中,了解婴儿如何从与环境的互动中逐渐培养出字彙以及学习语言。例如,从语音资料中可以撷取所有小婴儿表达「水」这个意念的词,然后再串接起来,就可以形成一连串从一开始gaga这样的状声词一直演化到后来water这个正确读法的过程。同时,罗伊也想利用这些资料来得知小婴儿会先学到什幺样的词彙,以及其背后的原因。于是他们利用机器学习方法,把蒐集到的资料自动分类,这些分类通常可以对应到某种情境或动作(如用餐、换尿布),然后利用讯息原理中「熵」(entropy)的概念,去计算每一个字彙在每一种情境中出现的分布是否平衡。例如有些字词对于情境比较不敏感(譬如「要」跟「来」等),反之也有一些字词对情境比较敏感(譬如「吃」跟「再见」),只会在特定的情境出现。最近,他们从蒐集来的巨量资料发现了一个有趣的结果:小婴儿会较快学到对于情境敏感的词,对于情境比较不敏感的词,学习速度就比较缓慢。

这样的巨量资料,还可以让学者更进一步了解语言学习背后的一些现象,例如分析在哪段时间或是哪个情境,小婴儿的语言学习能力比较强;探讨字彙的学习是同时认知某一主题的许多词彙,还是交错学习不同主题的词彙;甚至可以研究成人言谈中的情绪会不会影响小孩的语言学习(例如激动时讲的字眼,是否比较容易被学到)。

网路及电脑所产生的巨量资料,可以帮我们回答许多以前无法回答的问题,或是做出比较正确的决定。罗伊的研究就是一个最好的例子,他首先仔细定义出想要回答的问题,然后利用高科技设备蒐集巨量资料,对原始资料做适度的整理以及标记后,即可利用资讯科学上发展出来处理大量资料的方法深入解读资料,进而找出问题的答案甚至发现之前未曾发现的现象。

在巨量资料充斥的时代,只要能够学会倾听资料、理解它们背后的含意,即使像是婴儿这样无法充份表达思想的个体,都有机会传达给我们一些过去所不知道的知识。

  上一篇:   下一篇: