科技时报 全球最新科技资讯专业发布平台

谷歌大脑负责人:深度学习至少需要10万个数据样例

2017-10-24 11:20:32已围观次来源:网易科技编辑:夏雪

  10月24日消息,诸如深度学习技术有助于推动人工智能的发展。但这些技术的缺陷在于需要大量的数据进行训练。但到底多少数据才算得上足够呢?

  谷歌高级研究员,人工智能部门Google Brain负责人杰夫·迪恩(Jeff Dean)在接受采访时表示:“我想说的是,无论数据多少,很多与客户进行互动的业务都在开始考虑使用这些技术。如果你只有十几个数据样例,那就很难开展深度学习。但如果你有10万个相关的数据样例,那你就应该真正开始思考这些技术的运用。“

  作为Google Brain团队的负责人,迪恩对深度学习技术有相当审深入的研究。他的研究专注于计算机科学和人工智能方面的各类问题。自20世纪90年代以来,他一直在使用神经网络技术,当时他的本科毕业论文就是基于人工神经网络上。

  在他看来,机器学习技术会影响到每个行业,但其发展的速度取决于行业本身。

  人们在获取数据以及将有效数据转化为深度学习技术方面,仍然会遇到很多障碍。为了让采集到的数据对机器学习有用,需要对数据进行处理,这需要在第一时间对数据进行人为干预。

  迪恩说:“在机器学习系统中有很多并不是机器学习技术本身的工作。所以你还要做很多事情。你必须收集数据,打上标签并分类;然后你必须编写一些数据处理程序来生成数据集,然后才能进行机器学习。“

  为了打造机器学习系统的整个过程更为容易,谷歌所采用的一个方法是使用机器学习来确定解决特定问题的正确系统。这是一个前所未有的艰巨问题,但迪恩说早期的工作进展明显。

  例如,进行自我训练的神经网络能够从今年早些时候发布的ImageNet数据集中正确识别出图像。而谷歌旗下的人工智能系统DeepMind刚刚自主发布了一篇关于AlphaGo版本的论文,这似乎印证了机器进行自主学习的能力。(晗冰)