IEEE Fellow 梅涛荣登ACM MM 2023大会主席宝座京东凭多模态技术深耕获ACM MM
在过去的十年里,多媒体领域的跨模态分析技术得到了稳定且显著的创新和突破。然而,在X-modaler之前,没有一个开源代码库来支持以统一和模块化的方式训练和部署众多跨模态分析神经网络模型。京东探索研究院AI团队开发了X-modaler,这是一个业界首个模块化、标准化的跨模态视觉分析代码库,涵盖了视觉语言领域各种前沿技术,并支持各种多模态任务。它可以轻松复现当前主流技术,促进学术界发展,同时也便于工业界集成。
基于这七大核心功能,如编码器、交互器以及流式服务等,每个功能都包含了各类先进算法,比如交互器可以选择传统Attention或最新X-Linear Attention。在这些基础上,X-modaler能够轻松支持诸如图像/视频标签生成、视觉语言预训练、VQA(可视问答)、VCR(可视对话回应)以及跨模式检索等多种任务。此外,它还能很好地复现每个任务中的前沿技术。
此外,京东探索研究院通过其ViDA-Man项目致力于打造具有多感官交互能力的人机系统。这项工作深入研究了多模态交互技术,并专注于消费科技产品的人机交互方面。ViDA-Man基于人工智能技术,如计算机视觉、自然语言处理和语音识别,将泛娱乐与智能客服场景结合起来,为用户提供真实虚拟形象带来的新型拟人式交流体验。
在ACM MM 2023大会上,IEEE Fellow梅涛被选为共同主席,这是他在科技社区中的一次重要承诺。他表示获奖技术已经被用于京东云创建的虚拟数字人,以及拍照购搭配购等产品,并正在产业化商业化项目中得到广泛应用。在今年的11.11期间,这些技术帮助商家实现高转换率并降低成本。
除了内部应用,这些领先技