能看懂视频’项目,其项目预期期限,需要5年,才能攻克全部技术难点。
但是,这5年不是‘行百里而半九十’的,而是按照一个个技术阶段分别攻克的。他们要实现的最终目标,是‘通过让人工智能算法,识别出一个视频中,哪几帧画面才是决定全篇调性、故事主题的‘主要内容/中心思想’。
然后,再通过精读识别这些帧的画面上,有多少人物、什么动作、发生了什么故事’,最后总结出‘这视频大致是在说讲怎么样一个故事’。”
冯见雄说到这里的时候,稍微停顿了一下。也观察了杰克马的接受度,又通俗解释了几个点。
他的这番理论,如果都用术语表述,可能比较晦涩。
但是,举个小学生都懂的例子,横向对比一下,就通俗了——谷歌科学家们,在调教“深度学习”型人工智能、理解人类语言文字/图像信息的时候,其实有点儿像老师给小学生上语文课。
相信小学生都记得,当年语文课的时候,老师会不厌其烦问你:这篇课文的主要内容是什么?中心思想是什么?线索是什么?
很多小学生当初肯定是内心有一万头羊驼奔腾而过:尼玛!老子知道这个课文说了啥,看懂不就好了?你问