钉钉 AI 功能多模态升级 能根据图片识人、翻译、创作、多轮问答
【环球网报道 记者 李文瑶】3月28日,钉钉 AI 助理宣布升级,上线图片理解、文档速读、工作流等产品能力,探索多模态、长文本与 RPA 技术在 AI 应用的落地。基于阿里通义千问大模型,升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力。目前,用户在钉钉 IM 消息框或点击魔法棒按钮进入 AI 助理对话框,发送长文件、在线文档、网页链接、视频内容,即可根据内容识人、识地点、分析、答题、翻译、摘要、提取文字,甚至可以通过多轮交互进一步做智能问答。
具体来看,基于通义千问 Qwen-VL-Max 视觉理解模型,钉钉 AI 助理能够准确描述和识别图片信息,并根据图片进行信息推理、扩展创作、文字提取、翻译等,相当于一个全能的“图片小百科”。
同时,通义千问 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力。此外,AI 助理也支持视频内容的速读。发送给 AI 助理的短视频、直播切片或培训视频可以被快速“观看”, AI 助理会根据视频内容生成字幕,提取关键词,并生成一份智能摘要,对于最高 2GB 的视频内容,仅需 3 分钟即可完成智能解读。
基于通义千问大模型,钉钉 AI 助理可以快速阅读本地文件如 Word、PDF、PPT、Excel 等、钉钉文档、网页链接等多种格式文件,轻松解析各类学术论文、产品手册、使用教程、数据表格、新闻报道、多国语言的图书等。
目前,随着 OpenAI 带火 Agent(智能体),大模型融入自动化技术成为当前最具共识的方向之一。今年1月,钉钉 AI 助理正式上线,企业和个人 AI 助理已进入到工作和生产力场景中。为让 AI 助理可以完成一系列更复杂的任务,钉钉 AI 助理上线了工作流能力。
工作流是 AI Agent 的一种进阶玩法,不仅可以在创建时对 AI 执行任务的流程进行拆解和编排,使得 AI 助理可以主动接管完成相应操作,还能够打通外部的系统数据和 API 能力,进一步扩展了它的行动能力,比如搭建能自动写脚本并生成视频的创作 AI 助理。
为降低用户的使用门槛,钉钉官方还提供了多种工作流模板。已有企业使用工作流创建了门店信息收集助理,将用户反馈自动化整理,并存储到一张钉钉多维表中,帮助员工节约琐碎的时间;个人用户也通过连接微博 API,创建了自动追踪热点并撰写文章的助理,一个指令就能批量执行,大幅提升内容生产的效率。
目前,用户可在钉钉 APP 或 PC 客户端直接使用 AI 助理的各项功能,包括多模态、长文本和工作流。