软文推广

MEGVII国内最早一批人工智能创业公司之一：旷视科技今年将重点推动重点客户的业务闭环

2024-05-16 15:49 · 稿源：站长之家用户

作为国内最早一批人工智能创业公司之一，旷视经历了 AI技术创新和商业化探索的起伏。

面对大型模型带来的新一轮AI浪潮，旷视如何看待并布局?

旷视联合创始人兼CEO印奇表示，从CNN、ResNet到Transformer，深度学习一直是最核心的技术主线。

在经历了过去一年的发展后，人工智能领域已经由ChatGPT和GPT-4引领了最新的变革。随着时间的推移，许多国内外公司纷纷加入大型模型技术的竞赛，推动了该技术的快速发展和转型。

大型模型在处理通用任务方面展现出了很难相比的能力，这使所有人都看到了其解锁更多应用场景的巨大潜力。因此，各行各业都开始探索与大模型的结合可能性，对大模型的需求以前没有强烈。

在中国独特的技术创新环境中，这是一个无法回避的问题。中国人工智能行业经过多年的发展，尽管在生物识别、工业机器人、自动驾驶等领域取得了一定的突破，但尚未出现被技术彻底颠覆且大规模落地的产品和应用。

过去小模型时代未能解决的问题，是否会随着大型模型的出现而迎刃而解?

大型模型实现商业化的途径可以多样化，以下是一些关键策略和步骤:

1. 明确应用场景:首先，需要确定大型模型能够提供商业价值的具体领域。这包括了解行业需求、痛点以及大型模型能够解决的具体问题。

2. 定制化开发:针对特定行业或业务需求，对大型模型进行定制化的开发和调整，以确保其性能和输出与客户需求相匹配。

3. 创建可行的商业模式:设计一个可持续的商业模式，如基于使用量的计费模式、订阅服务、一次性授权费等，以实现收入的产生。

4. 合作与伙伴关系:与行业内的企业建立合作伙伴关系，利用他们的专业知识和市场渠道来推广和销售大型模型解决方案。

5. 产品化:将大型模型技术集成到用户友好的产品中，确保非技术用户也能够轻松使用。

6. 合规性与安全性:确保大型模型的商业化遵守相关的数据保护法规和行业标准，同时保障数据的安全性和隐私。

7. 持续优化:根据客户反馈和市场变化，不断优化模型的性能和功能，保持竞争力。

8. 教育和培训:为客户提供必要的教育和培训，帮助他们理解和最大化大型模型的价值。

9. 市场营销:通过有效的市场营销策略，提高目标市场对大型模型解决方案的认识和兴趣。

10. 监测和评估:建立一个系统来监测大型模型的表现，并评估其对客户业务的影响，以便进行必要的调整。

通过这些步骤，大型模型可以更好地满足市场需求，实现商业化，并在实际应用中产生价值。

作为国内最早一批人工智能创业公司之一，旷视经历了AI技术创新和商业化探索的起伏。

面对大型模型带来的新一轮AI浪潮，旷视如何看待并布局?

从技术演进的角度看，无论是之前的AlphaGo还是现今的大型模型，本质上都是深度学习的发展。

这一轮人工智能技术的发展浪潮仅依赖一项核心技术能力，那就是深度学习。

旷视联合创始人兼CEO印奇表示，从CNN、ResNet到Transformer，深度学习一直是最核心的技术主线。

印奇对多模态大型模型的应用前景持积极乐观的态度。他认为，随着技术的不断进步和成熟，多模态大型模型在行业应用中的潜力巨大，将为各行各业带来革命性的变化。

以下是印奇对多模态大型模型应用前景的几点看法:

1. 强大的理解能力:多模态大型模型通过整合视觉、语言等多种模态的信息，能够实现更全面和深入的理解，这将有助于解决复杂场景下的问题。

2. 广泛的适用性:由于多模态模型能够处理不同类型的数据，它们可以被应用于多个领域，包括但不限于医疗诊断、自动驾驶、智能客服等，具有广泛的实际应用前景。

3. 提升效率与降低成本:印奇认为，随着大模型技术的发展，“最后一公里”的效率将显著提升，同时成本也会降低，这将有利于多模态大型模型在行业中的快速推广和应用。

4. 客户共创:旷视致力于与客户深度共创行业大模型，这意味着他们将根据特定行业的需求和特点来定制和优化大模型，确保其解决方案能够有效地解决实际问题。

5. 实际落地的挑战:印奇也认识到，对于B端业务来说，仅仅依靠基础的大模型是难以实现实际落地的。因此，旷视强调推动多模态大模型在行业的应用，以确保投资回报率（ROI）能够转正。

6. 持续创新:印奇表示，旷视将继续专注于多模态大型模型的研究，并将其视为迈向人工通用智能（AGI）的重要途径。他们将持续创新，以确保技术能够不断进步并适应不断变化的市场需求。

印奇对多模态大型模型的应用前景充满信心，并相信这将是AI技术未来发展的关键方向之一。他强调了旷视在这方面的承诺和努力，包括与行业客户的合作、技术的持续迭代以及研究成果的商业化转化。

印奇认为，在图像和视频领域，需要区分“生成”和“理解”。如果将Sora视为独立应用，它体现的是生成能力，主要应用场景更倾向于C端用户。

而旷视将聚焦于感知和理解能力，其多模态大型模型是针对图片、视频、文字等不同模态的综合感知、理解和推理引擎。旷视会更加专注于提升理解能力，并在此基础上面向B端业务打造行业应用。

我们相信多模态大型模型将能够解锁更多行业应用场景。将多模态大型模型融入行业尽管行业内外对大型模型的期望很高，但普遍共识是，目前的基础大型模型并不适用于需求多样化的行业。

在将大型模型能力转移到各行各业的过程中，将会不可避免地遇到复杂的场景需求。企业用户在评估大型模型时，会综合考虑应用场景、数据安全、升级维护和成本效益等因素。

对于大型模型公司来说，这意味着需要进行大量的“最后一公里”工作，例如场景技术匹配、端到端部署、软硬件适配和安全性等。

印奇认为，随着大型模型时代的到来，“最后一公里”的效率将大幅提升，成本将显著下降。然而，行业落地的“最后一公里”问题仍然存在。

他表示，旷视选择坚定地走B端商业化道路。对于B端业务来说，仅凭基础大型模型难以真正落地，投资回报率（ROI）很难转正。

因此，旷视将重点推动多模态大型模型在行业的应用，深入行业开发行业大型模型。

将大型模型应用于具体行业需要端到端的方案，门槛不低，必须具备对模型、系统、数据和行业的综合理解能力。

从技术角度看，绝不是简单地调整开源模型就能满足需求，必须具备端到端的大型模型能力。

从行业角度看，本质上还是要以客户为中心，与客户共同创造行业大型模型。在大型模型时代，行业专业知识的积累仍然是稀缺资源。

旷视科技的商业化策略体现在其“1+3”战略中，旨在通过AI技术创新在各个物联网场景中实现商业化落地。具体来说:

Brain++AI生产力平台**:旷视科技利用其核心的Brain++AI生产力平台，提供算法的规模化供给。这个平台是公司商业化战略的基础，它支持公司在多个领域的产品和服务开发。

个人物联网**:在个人物联网领域，旷视科技可能专注于通过AI技术提升个人设备的智能化水平，例如智能手机和消费电子产品的人脸识别、图像处理等功能。

城市物联网**:在城市物联网领域，公司的AI技术可以应用于智慧城市建设，比如交通管理、公共安全监控以及环境监测等，以提升城市管理的智能化和效率。

供应链物联网**:在供应链物联网领域，旷视科技的AI技术可以用于智慧物流，包括仓库管理、货物追踪、自动化分拣等，以提高供应链的效率和透明度。

此外，旷视科技还强调了“产品为王”的战略核心，围绕其优势AI技术，从算法到感知升级，再到云边协同的完整价值链，通过数据、业务、场景的三方融合，助力企业园区数字化转型，创造智慧城市新生态。

旷视科技的商业化策略是一个综合性的战略规划，涵盖了技术研发、产品开发、市场应用等多个方面，旨在通过其AI技术推动多个行业的数字化和智能化转型。

多年来，旷视服务了许多行业头部客户，在重点行业积累了专业知识和经验。目前，旷视正在与金融、运营商、手机、智能汽车等领域的客户合作，推动大型模型在行业的落地。

“目前进展较快的是金融行业。”旷视科技资深副总裁兼云服务事业部负责人赵立威解释说，“从去年年中开始，我们服务的一些金融客户就开始探索大型模型。因为它们本身具备一定的基础能力储备，再加上对新技术的敏感度，所以对创新的渴望异常迫切。”

赵立威指出，在数据和知识高度集中的金融等行业内，大型模型技术无疑具有巨大的潜力。根据实际效果，大型模型短期内在提升效率方面的贡献将超过成本节约，这种效益也更易被客户认可。

然而，实现大型模型在行业中的应用以提有效率，是一项复杂性极高的任务。考虑到许多行业客户已基于大数据、ERP、CRM等传统IT能力，构建了标准的业务流程。

若大型模型仅用于简单取代现有的IT系统，其带来的收益将十分有限。唯有深入理解现行业务需求和逻辑，彻底改革现有的业务流程、组织关系以及决策体系，大型模型才能在提升效率方面显现其价值。

因此，大型模型的成功部署不单是技术问题，更是一个涉及多方面的商业难题。要成功落地大型模型，必须与客户紧密合作，共同创新。

目前，旷视科技正在与金融行业的银行、保险公司等客户合作，探索大型模型在金融风险控制、智能客服、文档和代码编写、图文分析和市场营销等多个业务场景中的应用。

赵立威强调，“今年是从零开始的一年，关键在于从重点客户入手，寻找适合大型模型的业务场景，并实现业务的完整闭环。这是我们当前的首要任务。”

对于大型模型技术的商业化应用，旷视科技持有明确的理解和策略。一方面，他们意识到大型模型在处理通用任务上展现了以前没有的能力，并且看到了它在开拓更多应用场景上的潜能。

另一方面，他们也认识到大型模型的实际应用并非单纯的技术问题，而是一个复杂的商业挑战。

鉴于此，旷视坚定地选择B端商业化路径，专注于增强理解能力，并在此基础上为B端业务打造行业特定的应用。

在执行过程中，旷视将重点推动多模态大型模型在不同行业的应用，并与金融、通信、手机、智能汽车等行业的客户合作，推进大型模型在这些领域的实际应用。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

人工智能
旷视
深度学习
大型模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
MEGVII旷视科技屡获新能源全球top级企业青睐背后的核心优势

全球能源产业正从资源依赖型走向技术驱动型。尤其是近年来，受全球能源变革、国内“双碳”政策等推动，锂电、光伏等新能源行业进入高速发展期。旷视希望与更多客户和合作伙伴携手共创，将AI和自动化技术深度融合，助力企业对车间和仓库进行自动化、数智化升级改造，实现提质增效。

能源产业新能源物联网
思科推出10亿美元人工智能基金，重点与AI公司合作创新

思科推出10亿美元的人工智能投资基金，旨在支持创新AI技术的发展。与其他公司不同，思科强调这一举措不仅仅是投入资金，更注重与公司合作共同创新。随着AI技术的不断发展，思科将继续与初创公司合作，推动AI技术的创新与应用。

思科人工智能 AI公司
范渊：人工智能+安全，行业跨时代革命的开始

5月18日，以“智绘安全，乘数上”为主题的2024第12届西湖论剑·数字安全大会在杭州国际博览中心隆重举行。面对AI引领的新质生产力发展机遇，安恒信息董事长范渊发表《AI安全，智绘跨时代的数字“富春山居图”》主题演讲指出，需要建立高远、平远、深远的数字安全观，以人工智能、数据要素作为新质生产力的关键引擎，解决经验不对称问题，重塑共创、共享、共进、共生、共赢的生态新模式，和大家一起智绘、共赏数字时代的富春山居图。范渊用共创、共享、共进、共生、共赢这“五个共”对未来安全生态进行展望，并邀请大家以人工智能作为新质生产力的关键引擎，一起智绘、共赏数字时代下的“富春山居图”。

数字安全大会智绘安全 AI+安全
索尼影业计划通过人工智能降低电影成本

索尼影业CEO托尼・文西奎埃拉表示，公司计划利用人工智能技术来削减电影制作成本。公司将主要依赖人工智能技术来“更高效地制作面向影院和电视的影视作品”。这一举措可能在未来为观众带来更多质量高、成本更低的精彩影视作品。

索尼影业人工智能技术电影制作
专家表示，人工智能助推仇恨内容上升

专家们表示，人工智能技术使得仇恨内容和误导信息在网上迅速增加。今年早些时候，一名极右翼阴谋论者在前推特上分享了一段视频，这段视频是通过人工智能修改的，其中希特勒用英语发表了反犹太主义言论。专家们一致认为，AI生成的仇恨内容是一个新兴问题，但他们尚未就问题的范围达成一致。

人工智能 AI
研究发现：生成式人工智能正在迅速进入媒体和娱乐行业

生成式人工智能在媒体娱乐行业中的应用正日益普遍。一项由亚瑟・D・利特尔为贝塔斯曼进行的研究发现，从2023年6月到9月，该咨询公司调查了60多家科技公司超过200种生成式AI的用途，包括科技巨头和专业提供商。但许多媒体公司也尝试使用自己的数据训练专门的Gen-AI模型。

生成式人工智能
天罡智算亮相世界人工智能大会，沙利文&天罡智算将于“人工智能与智算发展论坛”发布行业白皮书目录

AI大热，如火如荼的2024年世界人工智能大会（WAIC）将于7月4日至6日在上海世博中心举办。本届WAIC将继续汇聚全球人工智能领域的顶尖智慧和前沿思想，链接国际科技创新生态圈，探索人工智能发展新机遇。新锐AI智算交易平台——天罡智算交易平台将联合吉涛生物科技、犀云科技、进馨控股集团中教恩视首次亮相WAIC现场展示智算技术在人工智能、物联网、生物科技等领域的创

人工智能大会智算技术应用人工智能发展
新加坡计划建设量子计算和数据中心，推动人工智能发展

新加坡政府最近发布了一项旨在推动人工智能技术发展的计划，重点包括推出大型语言模型测试的国际标准，以及投资量子计算和数据中心建设。图源备注：图片由AI生成，图片授权服务商Midjourney副总理王瑞杰在上周举行的亚洲科技新加坡2024峰会上表示，量子计算有潜力在模拟复杂分子进行药物发现等领域发挥更高的处理能力。新加坡希望成为在这一领域的领导者，为LLM测试提供标准，以规避模型的偏见和有害内容，并在创新空间。

新加坡人工智能技术语言模型
IEEE：如何负责任地使用人工智能

2021年，一组研究人员开始量化人工智能伦理话题的热度。他们在GoogleScholar上搜索人工智能和伦理的参考文献。一些出版物现在允许人工智能的使用，前提是作者列举了引用的人工智能及其使用日期。

人工智能伦理研究
人工智能赋能教育，作业帮智能学习机引领新潮流

随着数字化时代的蓬勃发展，学生的学习方式正经历着前所未有的变革。学习机配套的AI人工智能正逐渐成为家庭教育的强力助手，从多个学习场景中辅助孩子完成学习任务。随着市场入局者逐渐增多，学习机应回归本质，通过优质的教育资源等“好内容”实现产品差异化，摆脱同质化竞争、价格战等趋势，在竞争加剧的智能学习机市场中站稳脚跟。

学生学习方式智能学习机 AI人工智能

Nemotron-4-340B-Reward:多维奖励模型，助力构建自定义大型语言模型。

Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型，用于合成数据生成管道，帮助研究人员和开发者构建自己的大型语言模型（LLMs）。该模型由Nemotron-4-340B-Base模型和一个线性层组成，能够将响应末尾的标记转换为五个标量值，对应于HelpSteer2属性。它支持最多4096个标记的上下文长度，并能够对每个助手轮次的五个属性进行评分。

AI 大型语言模型合成数据生成

Nemotron-4-340B-Instruct:NVIDIA的高级语言模型，优化于英文对话场景。

Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM)，专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度，经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上，通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好，并且能够为多种用例生成高质量的合成数据。

大型语言模型对话系统编程辅助

BookSlice:让阅读更有趣，用游戏化的方式增加阅读量。

BookSlice是一款面向忙碌人群的游戏化阅读应用，通过心理学原理帮助用户建立阅读习惯，并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具，使阅读变得习惯性和上瘾。此外，BookSlice还提供AI问答功能，帮助用户在阅读过程中获得上下文答案。

阅读游戏化心理学

agentUniverse:基于大型语言模型的多智能体应用开发框架

agentUniverse 是一个基于大型语言模型的多智能体应用开发框架，提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂，允许开发者构建和自定义多智能体协作模式，轻松构建多智能体应用，并分享不同技术与业务领域的模式实践。

AI 多智能体开发框架

HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法，在不降低性能的情况下，实现了推理速度的两倍提升。该模型支持多种GPU和推理模式，能够显著减少时间消耗，提高图像生成效率。

图像生成蒸馏技术加速推理

WonderWorld:从单张图片生成交互式3D场景

WonderWorld是一个创新的3D场景扩展框架，允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法，显著减少了计算时间，生成几何一致的扩展，使3D场景的生成时间少于10秒，支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

3D场景生成虚拟现实创意设计

ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目，旨在对音色进行稳定性评分和音色打标，帮助用户选择稳定且符合需求的音色。项目已开源，支持在线试听和下载音色样本。

音色评分说话人识别 ERes2NetV2

fastc:轻量级文本分类工具，使用大型语言模型嵌入。

fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行，使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调，实现文本分类。它还可以在不增加额外开销的情况下，使用相同的模型运行多个分类器。

文本分类余弦相似度大型语言模型

MeshAnything:3D资产的自动生成工具

MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型，它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs)，这些网格可以无缝应用于3D行业。它通过较少的面数生成网格，显著提高了存储、渲染和模拟效率，同时实现了与先前方法相当的精度。

3D设计网格生成自回归变换器

HunyuanDiT-v1.1:多分辨率扩散变换器，支持中英文理解

HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型，它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码，结合从头开始构建的完整数据管道，实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话，根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估，HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比，达到了新的最先进水平。

AI图像生成多模态对话中英文双语

UniAnimate:高效生成一致性人物视频动画的模型

UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列，支持随机噪声输入和首帧条件输入，显著提高了生成长期视频的能力。此外，它还探索了基于状态空间模型的替代时间建模架构，以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果，并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

人物动画视频生成扩散模型

LVBench:长视频理解基准测试

LVBench是一个专门设计用于长视频理解的基准测试，旨在推动多模态大型语言模型在理解数小时长视频方面的能力，这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

视频理解基准测试多模态模型

Mo:通过卡片式学习，轻松掌握AI科技知识。

Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式，以图文、动画、视频、语音等多样化内容，使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识，还包含了元宇宙、大数据、大模型等前沿技术，适合各种背景的学习者，旨在打造一个个性化的学习体验。

AI学习科技教育个性化学习

开搜AI搜索:面向大众的AI问答搜索引擎

开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎，它能够帮助用户从海量的文献资料中筛选出有用的信息，提供直接、精准的答案，并且能够自动总结重点、生成大纲、思维导图并下载。

AI问答信息筛选知识获取

AI Math Notes:一个交互式绘图应用，用于数学方程的绘制和计算。

AI Math Notes 是一个开源的交互式绘图应用程序，允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型（LLM）计算并显示结果。该应用程序使用Python开发，利用Tkinter库创建图形用户界面，使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会（WWDC）上展示的'Math Notes'。

数学教育工具开源

VideoTetris:文本到视频生成的创新框架

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

文本到视频视频生成人工智能

Visual Sketchpad:多模态语言模型的视觉推理工具

Visual Sketchpad 是一种为多模态大型语言模型（LLMs）提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时，根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同，Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图，从而更好地促进推理。此外，它还可以在绘图过程中使用专家视觉模型，例如使用目标检测模型绘制边界框，或使用分割模型绘制掩码，以进一步提高视觉感知和推理能力。

多模态视觉推理教育辅助

GoMate:基于RAG框架的可靠输入和可信输出系统

GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型，专注于提供可靠输入和可信输出。它通过结合检索和生成技术，提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域，如自然语言处理、知识问答等。

RAG 自然语言处理文本生成

SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型，它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术，可以更精确地控制生成图像的细节和风格，从而提高图像生成的质量和多样性。

图像生成深度学习控制网络

Tencent EMMA:多模态文本到图像生成模型

EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型，能够接受多模态提示，通过创新的多模态特征连接器设计，有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数，并仅调整一些额外层，揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架，是生成个性化和上下文感知图像甚至视频的灵活有效工具。

图像生成多模态 AI

今日大家都在搜的词：

人生重开模拟器
显卡天梯图
国内云服务器哪家好
高通骁龙处理器排名
手机CPU天梯图
单反相机天梯图
安兔兔手机跑分排行榜
笔记本电脑排行榜
全球耳机品牌排行榜
《艾尔登法环》地图工具

热文

3 天
7天

1

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍
2

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线
3

中专数学天才拿下全球12名的题目有多难：看你能做出几道
4

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34
5

史上首次！抖音集团成2024年巴黎奥运会持权转播商
6

Google 支持的 Tempus AI 在纳斯达克首次亮相，首日交易上涨 9
7

专家指出如果 Google 冒险在 AI 功能上加码，就需要明确说明可
8

马斯克最新访谈：在全球核战爆发前必须实现殖民火星
9

QQ出手整治网络厕所、开盒挂人等今年已处置1.32万个账号
10

今日起：京广高铁全线复兴号按时速350公里高标运营

1

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍
2

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线
3

闲鱼回应多用户未经本人允许挂售同事：不可售卖非个人资产
4

马斯克承诺明年开始限量生产擎天柱Optimus人形机器人
5

1.52万亿！亚马逊创始人贝索斯成为全球首富马斯克第三
6

北京拟禁止直播平台销售保健品不得以全网最低价误导消费者
7

董明珠称市场不相信眼泪：不断挑战自我才能推动行业发展
8

造谣公司用AI一天写谣言7000篇：MCN机构用AI造谣被曝光
9

中专数学天才拿下全球12名的题目有多难：看你能做出几道
10

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34

MEGVII国内最早一批人工智能创业公司之一：旷视科技今年将重点推动重点客户的业务闭环

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

MEGVII旷视科技屡获新能源全球top级企业青睐背后的核心优势

​思科推出10亿美元人工智能基金，重点与AI公司合作创新

范渊：人工智能+安全，行业跨时代革命的开始

​索尼影业计划通过人工智能降低电影成本

专家表示，人工智能助推仇恨内容上升

研究发现：生成式人工智能正在迅速进入媒体和娱乐行业

天罡智算亮相世界人工智能大会，沙利文&天罡智算将于“人工智能与智算发展论坛”发布行业白皮书目录

新加坡计划建设量子计算和数据中心，推动人工智能发展

IEEE：如何负责任地使用人工智能

人工智能赋能教育，作业帮智能学习机引领新潮流

Nemotron-4-340B-Reward:多维奖励模型，助力构建自定义大型语言模型。

Nemotron-4-340B-Instruct:NVIDIA的高级语言模型，优化于英文对话场景。

BookSlice:让阅读更有趣，用游戏化的方式增加阅读量。

agentUniverse:基于大型语言模型的多智能体应用开发框架

HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

WonderWorld:从单张图片生成交互式3D场景

ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

fastc:轻量级文本分类工具，使用大型语言模型嵌入。

MeshAnything:3D资产的自动生成工具

HunyuanDiT-v1.1:多分辨率扩散变换器，支持中英文理解

UniAnimate:高效生成一致性人物视频动画的模型

LVBench:长视频理解基准测试

Mo:通过卡片式学习，轻松掌握AI科技知识。

开搜AI搜索:面向大众的AI问答搜索引擎

AI Math Notes:一个交互式绘图应用，用于数学方程的绘制和计算。

VideoTetris:文本到视频生成的创新框架

Visual Sketchpad:多模态语言模型的视觉推理工具

GoMate:基于RAG框架的可靠输入和可信输出系统

SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

Tencent EMMA:多模态文本到图像生成模型

今日大家都在搜的词：

热文

董宇辉在永乐宫拍摄壁画引质疑 官方：经审批可拍

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线

中专数学天才拿下全球12名的题目有多难：看你能做出几道

563支AI队伍做了姜萍同一份数学试卷： 结果最高分仅34

史上首次！抖音集团成2024年巴黎奥运会持权转播商

Google 支持的 Tempus AI 在纳斯达克首次亮相，首日交易上涨 9

专家指出如果 Google 冒险在 AI 功能上加码，就需要明确说明可

马斯克最新访谈：在全球核战爆发前必须实现殖民火星

QQ出手整治网络厕所、开盒挂人等 今年已处置1.32万个账号

今日起：京广高铁全线复兴号按时速350公里高标运营

董宇辉在永乐宫拍摄壁画引质疑 官方：经审批可拍

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线

闲鱼回应多用户未经本人允许挂售同事：不可售卖非个人资产

马斯克承诺明年开始限量生产擎天柱Optimus人形机器人

1.52万亿！亚马逊创始人贝索斯成为全球首富 马斯克第三

北京拟禁止直播平台销售保健品 不得以全网最低价误导消费者

董明珠称市场不相信眼泪：不断挑战自我才能推动行业发展

造谣公司用AI一天写谣言7000篇：MCN机构用AI造谣被曝光

中专数学天才拿下全球12名的题目有多难：看你能做出几道

563支AI队伍做了姜萍同一份数学试卷： 结果最高分仅34

站长商机

思科推出10亿美元人工智能基金，重点与AI公司合作创新

索尼影业计划通过人工智能降低电影成本

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34

QQ出手整治网络厕所、开盒挂人等今年已处置1.32万个账号

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍

1.52万亿！亚马逊创始人贝索斯成为全球首富马斯克第三

北京拟禁止直播平台销售保健品不得以全网最低价误导消费者

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34