钉钉 AI 功能多模态升级能根据图片识人、翻译、创作、多轮问答

2024-03-28 11:16 由环球网发表于 #科技

【环球网报道记者李文瑶】3月28日，钉钉 AI 助理宣布升级，上线图片理解、文档速读、工作流等产品能力，探索多模态、长文本与 RPA 技术在 AI 应用的落地。基于阿里通义千问大模型，升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力。目前，用户在钉钉 IM 消息框或点击魔法棒按钮进入 AI 助理对话框，发送长文件、在线文档、网页链接、视频内容，即可根据内容识人、识地点、分析、答题、翻译、摘要、提取文字，甚至可以通过多轮交互进一步做智能问答。

具体来看，基于通义千问 Qwen-VL-Max 视觉理解模型，钉钉 AI 助理能够准确描述和识别图片信息，并根据图片进行信息推理、扩展创作、文字提取、翻译等，相当于一个全能的“图片小百科”。

同时，通义千问 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力。此外，AI 助理也支持视频内容的速读。发送给 AI 助理的短视频、直播切片或培训视频可以被快速“观看”， AI 助理会根据视频内容生成字幕，提取关键词，并生成一份智能摘要，对于最高 2GB 的视频内容，仅需 3 分钟即可完成智能解读。

基于通义千问大模型，钉钉 AI 助理可以快速阅读本地文件如 Word、PDF、PPT、Excel 等、钉钉文档、网页链接等多种格式文件，轻松解析各类学术论文、产品手册、使用教程、数据表格、新闻报道、多国语言的图书等。

目前，随着 OpenAI 带火 Agent（智能体），大模型融入自动化技术成为当前最具共识的方向之一。今年1月，钉钉 AI 助理正式上线，企业和个人 AI 助理已进入到工作和生产力场景中。为让 AI 助理可以完成一系列更复杂的任务，钉钉 AI 助理上线了工作流能力。

工作流是 AI Agent 的一种进阶玩法，不仅可以在创建时对 AI 执行任务的流程进行拆解和编排，使得 AI 助理可以主动接管完成相应操作，还能够打通外部的系统数据和 API 能力，进一步扩展了它的行动能力，比如搭建能自动写脚本并生成视频的创作 AI 助理。

为降低用户的使用门槛，钉钉官方还提供了多种工作流模板。已有企业使用工作流创建了门店信息收集助理，将用户反馈自动化整理，并存储到一张钉钉多维表中，帮助员工节约琐碎的时间；个人用户也通过连接微博 API，创建了自动追踪热点并撰写文章的助理，一个指令就能批量执行，大幅提升内容生产的效率。

目前，用户可在钉钉 APP 或 PC 客户端直接使用 AI 助理的各项功能，包括多模态、长文本和工作流。