IEEE Fellow梅涛视觉计算的前沿进展与挑战正如上海砍人2022最新资讯中所揭示的那样这个领域

  • 媒体报道
  • 2025年01月08日
  • IEEE Fellow梅涛:从感知智能到认知智能的视觉计算前沿与挑战,上海砍人2022最新资讯揭示了技术发展的新纪元。我们正在探索如何将视觉计算应用于更广泛的领域,包括但不限于图像识别和视频分析。在这场关于GAIR 2021大会上,梅涛院长深入探讨了从感知智能到认知智能的进展,并提出了在此领域面临的一些挑战。 首先,我们看到了AI在图像合成和图像识别方面取得了巨大的进步

IEEE Fellow梅涛视觉计算的前沿进展与挑战正如上海砍人2022最新资讯中所揭示的那样这个领域

IEEE Fellow梅涛:从感知智能到认知智能的视觉计算前沿与挑战,上海砍人2022最新资讯揭示了技术发展的新纪元。我们正在探索如何将视觉计算应用于更广泛的领域,包括但不限于图像识别和视频分析。在这场关于GAIR 2021大会上,梅涛院长深入探讨了从感知智能到认知智能的进展,并提出了在此领域面临的一些挑战。

首先,我们看到了AI在图像合成和图像识别方面取得了巨大的进步,比如通过深度学习模型可以生成几乎难以区分真实图片与机器合成图片。此外,在“看图说话”任务中,AI已经能够描述图片内容,如同人类一样细致。但是,这也暴露了一些问题,比如对罕见事件描述能力有限,以及缺乏逻辑推理能力。

随着时间的推移,我们注意到计算机视觉领域经历了重大变革,从传统特征工程转向深度学习。这导致了一系列创新,如GoogleNet VGG、ResNet等,这些模型极大地提高了性能并获得大量引用。同时,我们也看到数据集规模不断扩大,有些甚至超过亿级别,同时存在跨界趋势,如Transformer在自然语言处理领域表现出色,现在开始被引入视觉领域。

然而,即便如此,对视频分析仍然存在大量潜力(open question)。原因可能是由于视频内容多样化以及同一语义可能有不同的含义。在过去十年里,研究主要集中在语义分隔、物体检测、视频动作行为识别、图像分类等几个方向,其中Vision and language最近几年尤其火热,因为它要求不仅能从图或视频生成文字,还能反过来从文字生成内容。

总结来说,目前我们的目标还是 RGB 视频和图像,但未来的研究会涉及更多维度,更丰富的数据类型。而对于通用视觉理解来说,要做到精细粒度识别,就需要解决商品SKU级别的问题。这也是京东一直追求的问题,他们通过各种方法尝试解决这个问题,比如结合 attention 和自监督学习方式。

最后,我想强调的是尽管我们已经取得了一定的进展,但还有一段很长很漫长的人工智能之路要走。

猜你喜欢