大数据的海洋 背后掌舵的仍是人类

 邮箱网  0条评论  5852次浏览  2013年03月22日 星期五 16:42

分享到: 更多
【中国邮箱网 电子邮件频道】3月22日,交易股票、定位广告受众、指导政治宣传、安排约会、在电视问答节目《危险边缘》(Jeopardy)中击败对手,甚至是选择胸罩尺寸:计算机算法正在包揽所有这些工作,甚至还覆盖到了更多领域。

但在幕后,一位老帮手无疑正在发挥越来越重要的作用,那就是人类。

虽然算法正变得前所未有地强大,快而精准,但计算机本身却往往只懂字面义,它们通常无法理解不同语境和词义的微妙差别。尽管这些机器如此强大,但它们也并非总是能解读人类语言的含糊性和人类逻辑的神秘性。然而如今,它们却被要求得出更符合人类的习惯的结果。

“虽然电脑十分聪明,但它们仍然可能会愚不可及,”卡内基梅隆大学(Carnegie Mellon University)的计算机科学家汤姆·M·米切尔(Tom M. Mitchell)说。

因此,虽然编程专家们还在编写计算机代码一步步的操作指令,但还是需要额外的人力进行一些更细致的工作,因为计算机所处理的工作正变得越来越复杂。人们要评估、编辑或者校正算法完成的工作。或者,人们也会集合起在线知识的数据库,并对其进行检查、核对,实质上是建立起一个让计算机快速查找答案的备忘录。人类可以将信息解释、调整成电脑和其他人都可以理解的内容。

像苹果(Apple)的Siri和IBM的沃森(Watson)这样的问答技术,尤其需要依赖这种新兴的人机合作。单靠算法本身是不足够的。

计算机算法和工程师主导着谷歌(Google)的业务和文化。但即使是在这样的公司,人对搜索结果的介入也越来越多。谷歌需要在两个方面借助人力的帮助。从几个月前起,如果用户键入一个著名人物或地点的名字,如“奥巴马”或“纽约市”,谷歌就会在搜索结果的右边显示信息概要。这些概要取自存储知识的数据库,如维基百科(Wikipedia)、中情局世界概况(World Factbook),以及Freebase,谷歌在2010年收购了Freebase的母公司Metaweb。这些数据库都是由人编辑的。

当谷歌的算法发现一个搜索关键字有匹配的概要信息存在,搜索引擎会按指令抓取信息,而不仅仅是显示网页链接。

谷歌负责搜索质量的技术总监斯科特·赫夫曼(Scott Huffman)说,“我们的想法发生了变化。人类对我们的部分信息资源进行了更多的整理。”

其他的人类助手有评估员和打分员,他们帮助谷歌对其搜索算法做微调处理。谷歌的搜索算法自动运行、能力强大,每月能处理1000亿条搜索请求。谷歌公司的赫夫曼说,“我们的工程师逐步调整算法,之后,真人帮手会帮助我们判断所提出的变动是否真的是对程序的改善。”

23岁的凯瑟琳·扬(Katherine Young)是谷歌的一名打分员。她是一名合同工,也是乔治亚州梅肯的一名大学生。她会看到一条含糊的搜索关键字,如“国王举着什么”,以及两组谷歌搜索的结果。她要做的是给结果的相关性、准确性和质量打分。这条不精确的关键字得出的搜索结果中,排在前面的一些网页链接都说,国王通常拿着仪式权杖,这是一个合理的结论。

扬说,她的判断“并非完全非黑即白,其中一些是主观的”。她补充说,“你得尽量站在查询这条关键字的人的角度考虑。”

IBM的沃森(Watson)是一款强大的问答型电脑,它曾在两年前击败了《危险边缘》节目的冠军,人们近期正在训练它协助医生诊断疾病。但它也需要人类的帮助。

为了帮助沃森准备好协助医生的工作,人们给它输入医学文献、科学报告和去掉了患者身份信息的数字病例。沃森并不回答问题,而是向克利夫兰医学中心(Cleveland Clinic)的临床医生和医学院学生提问。他们会通过一项叫“教导沃森”(Teach Watson)的功能给出答案,并纠正电脑的错误。

FindTheBest是加州圣巴巴拉的一家快速成长的初创企业,25岁的本·泰勒(Ben Taylor)是该公司的一名产品经理。这家公司自称是一部“对比引擎”,可以找到并对比超过100个主体和产品,包括从大学到养老院、从智能手机到狗的品种的各种话题。网站于2010年上线,该公司现在有60名全职员工。

泰勒帮助设计和编辑该网站的教育板块。他学的是英语专业,并非工程师,而是自学成才,成了从教育部门及其他领域的研究中发掘隐秘数据的专家。他的研究方法包括通过谈话和电子邮件与教育者交流。他是一名信息侦探。

在FindTheBest网站上,根据地理位置、科目和学费等不同标准,人们可以迅速找到超过8500所学院的信息。打开一所大学的页面,摘要、图表和图片也会展示出丰富的信息,甚至包括全体师生的性别比例和种族构成。

泰勒及其团队撰写了这些摘要,并设计了最初的图表和图片。例如,他们会从有关大学费用的数百个数据中,选出对大学生及其父母最相关的那些。但他们的大部分信息是放在模版中,并标注计算机能够读取的代码。因此整个过程已经变得更加自动化,泰勒和其他人基本上只需给算法下达“抓取”命令,算法就会执行。

计算机算法正在不断改进,但单靠算法还是不够的。

“这其中需要判断,要能够凭感觉辨别出,哪些较小的数据集合最重要,”泰勒说,“为了做到这一点,必须有一些人力的参与。”

翻译:曹莉、林蒙克

文章来源:纽约时报中文网

标签:大数据

我的评论:

请  后发表评论。