韦德体育- 韦德体育官方网站- APPAI创投周报|Looki L1国内开售Lovable获33亿美元B轮融资
栏目:韦德体育 发布时间:2025-12-23

  韦德体育,韦德官方网站,韦德网站,伟德官网,bevictor,韦德体育app,韦德官网入口,韦德网址,韦德体育网址,韦德体育下载,韦德体育app下载,韦德体育客户端,韦德,韦德体育平台,韦德体育注册

韦德体育- 韦德体育官方网站- 韦德体育APPAI创投周报|Looki L1国内开售Lovable获33亿美元B轮融资

  AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

  谷歌正式推出Gemini 3 Flash模型,作为Gemini 3系列的新成员,它在速度上比Gemini 2.5 Pro快3倍的同时,在部分基准测试中性能接近Gemini 3 Pro版本,且成本大幅降低。

  Gemini 3 Flash支持多模态推理和智能体编码任务,在MMMU Pro多模态理解测试中得分81.2%,在SWE-bench验证编码基准中达到78%。模型输入定价为每百万token 0.50美元,输出为每百万token 3美元,并通过Gemini应用、Google AI Studio等平台向用户免费开放。其高效能设计使平均token使用量比Gemini 2.5 Pro减少30%,适用于实时应用开发和复杂任务处理。

  OpenAI推出新一代图像生成模型GPT Image 1.5。该模型的突出亮点在于其生成速度最高可达上一代的4倍,并在指令遵循、编辑精度和文本渲染方面实现显著改进。

  GPT Image 1.5具体功能包括更精准的图像编辑,如局部修改时保持光照、构图和人物外观一致,适合换装、换背景等多轮迭代,模型在复杂提示词下能更好理解物体关系。

  产品层面,ChatGPT中新增了专门的Images创作入口,面向全体用户开放,而API版本的同款模型则降价约20%。基准测试显示,其在文本转图像和图像编辑任务中表现领先,但部分实测表明,在写实质感、生成速度等方面与Google的Nano Banana Pro各有长短。

  阿尔法公社早期投资的Looki,近日在国内发售其首款AI原生硬件Looki L1,这款产品定位为“AI生活主理人”。它的团队核心成员源自卡内基梅隆大学及Momenta、Pony.ai。

  Looki L1仅重30克,呈挂坠形态,支持1080P/30帧画面与12小时待机。该产品旨在补齐大模型“感官智能”的拼图,解决AI被困在对话框内缺乏物理“在场感”的难题。通过将现实视听信号实时转化为结构化上下文,Looki试图消除用户充当“人肉传感器”的低效负担,让物理世界本身成为驱动AI思考的最高效Prompt,推动交互从被动问答向主动共鸣进化。

  4.豆包大模型1.8与Seedance 1.5 Pro发布,多模态与音视频生成能力升级

  在火山引擎Force原动力大会上,字节跳动正式发布了豆包大模型1.8及其音视频创作模型Seedance 1.5 pro。豆包大模型1.8在多模态理解以及智能体能力上的综合实力达到业界前列。

  豆包大模型1.8面向多模态Agent场景进行了专项优化,其工具调用、复杂指令遵循及操作系统级Agent能力显著增强。评测数据显示,该模型在视觉推理、通用视觉问答、空间理解等多项多模态任务中表现优异,尤其在通用智能体测评集BrowseComp上取得了领先成绩。

  Seedance 1.5 pro是一款原生支持音视频联合生成的模型,实现了毫秒级的音画同步,并支持包含多种方言和小语种在内的多人对话口型精准对齐。该模型在运动细节捕捉、人物情绪渲染方面具有较强表现,能够提升视频内容的生动性与叙事质感。

  小米公司近日开源了大语言模型MiMo-V2-Flash,该模型采用309B参数的混合专家架构,其中激活参数为15B。通过引入Hybrid注意力架构创新及多层MTP推理加速,模型在多个Agent测评基准上进入全球开源模型Top 2。

  在训练方法上,小米采用了多教师在线策略蒸馏(MOPD)的全新范式,通过构建特定领域教师模型网络,利用反向KL散度为学生模型提供密集的Token级奖励信号。这一方法仅需传统SFT+RL流程约1/50的计算资源,即可追平教师模型能力。

  在推理加速方面,模型通过多层Token预测技术实现2-2.6倍的实际加速比,并在SWE-Bench代码基准测试中获得73.4%的分数。该模型性价比突出,其API定价为输入0.7元/百万tokens,输出2.1元/百万tokens,目前已在HuggingFace 开源(MIT协议)。

  阿里巴巴正式推出万相2.6系列视频生成模型家族,该系列涵盖文生视频、图生视频、参考生视频及图像生成等多款模型。其最突出的亮点在于实现了国内首个具备声画一致性角色定制能力,并能通过分镜控制功能构建完整叙事段落,标志着AI视频生成从单点画面产出进入了连贯故事创作的新阶段。

  万相2.6的核心技术突破体现在多模态联合建模与学习能力上。模型能够对输入参考视频中主体的外观、动态、多角度视觉特征以及音色、语速等声学特征进行联合提取,在多镜头切换中保持角色形象、声音和场景氛围的高度一致。它支持单人或多角色的声画同步生成,单次视频生成时长最高达15秒。在平面图像生成方面,模型提升了对艺术风格的还原精度与复杂排版的控制能力,改善了人物肤质真实感与光影细节。这些升级显著降低了专业级视频创作的门槛,为短剧制作、广告设计等场景提供了高效工具,使得影视级制作能力得以通过移动端和云端普及至更广泛的用户群体。

  Thinking Machines Lab近日宣布,其模型微调平台Tinker正式取消候选名单限制,面向所有开发者开放使用,Tinker平台通过API方式提供完整的模型微调基础设施,开发者只需准备训练数据和算法,无需自行管理GPU集群等底层资源,这一开放举措使普通开发者也能获得原本仅限顶级实验室的大型模型微调能力。

  在具体应用测试中,团队利用Tinker对Qwen3-VL模型进行微调,将图像分类建模为文本生成任务,并在Caltech-101等四个经典数据集上与采用LoRA微调的DINOv2基线进行了对比。实验结果显示,得益于大规模参数与内置语言理解能力,该模型在小样本场景下的分类准确率优于基线,能够更自然地关联视觉内容与语义描述。

  来自Physical Intelligence与佐治亚理工学院的研究团队共同发表了关于VLA模型的研究成果,该研究最突出的亮点在于发现了机器人跨具身学习中的“涌现”现象:即只有当VLA模型在多样化机器人数据上的预训练达到特定规模后,其从人类动作视频中提取并转化技能的能力才会发生质的飞跃。

  这一发现不仅打破了由于人机物理结构差异导致的“具身鸿沟”瓶颈,更证明了通过海量异构数据预训练,机器人能够自发产生理解人类行为并将其转化为自身动作的能力。

  在技术细节上,研究者利用跨形态、多任务的大规模数据集训练VLA模型,并在“清理餐具”、“整理调料”等现实场景中进行了微调测试。实验结果显示,随着预训练数据多样性的提升,模型在处理人类演示过的未知任务时表现出极强的泛化能力,其迁移成功率呈显著的非线性增长。

  谷歌公司正联合Meta推进一项名为“TorchTPU”的战略计划,旨在优化其自研的TPU芯片对主流AI框架PyTorch的支持。作为PyTorch的主要支持者,Meta深度参与此项合作,双方试图通过降低开发者的迁移门槛,提升TPU在AI算力市场的竞争力,以应对英伟达凭借CUDA生态形成的长期优势。

  该计划的核心是解决TPU与PyTorch框架之间的兼容性问题。过去,谷歌TPU的软件优化主要围绕其自研的Jax框架构建,而全球多数开发者习惯使用PyTorch,导致TPU的推广面临较高适配成本。TorchTPU通过优化软件栈,力图实现PyTorch模型在TPU上的高效运行,并可能将部分软件开源。

  Saviynt是一家提供云原生身份安全与访问治理平台的公司,其业务聚焦于为企业管理和保护人类、机器及AI代理的访问权限。

  公司通过融合身份治理与管理(IGA)、特权访问管理(PAM)、应用访问治理(AAG)、身份安全态势管理(ISPM)和访问网关等功能,解决传统身份管理工具难以满足云架构和AI驱动环境下安全需求的问题。Saviynt的核心产品是集成的身份安全平台,主要应用于需要确保访问合规性、降低风险、提高运营效率的大中型企业环境。

  Saviynt由Sachin K. Nayyar创立并担任首席执行官,他是身份与网络安全领域的连续创业者,此前创办过身份管理公司Vaau并被Sun Microsystems收购,之后又创立并领导Securonix公司获得过十亿美元以上融资。

  OpenEvidence近期正进行新一轮股权融资,计划募集约2.5亿美元。若融资顺利完成,它的估值将达到120亿美元。OpenEvidence今年2月获得7500万美元A轮融资,估值10亿美元;7月获得2.1亿美元B轮融资,估值升至35亿美元;10月获得2亿美元C轮融资,估值已达60亿美元。它成为目前估值最高的医疗AI企业之一。

  OpenEvidence的核心业务是开发专为医疗工作者设计的AI辅助决策工具,旨在解决医生在临床实践中遇到复杂病例时的信息检索难题。在日常诊疗中,医生常需应对缺乏标准答案的边缘案例,传统文献检索方式效率低下,而通用大模型又难以精准抓取分散在小样本研究或专家共识中的关键信息。

  针对这一痛点,OpenEvidence构建了经过严格筛选的医疗知识库,其数据来源不包括互联网公开信息,而是整合了PubMed、Cochrane等权威数据库以及《新英格兰医学杂志》等顶尖期刊的独家授权内容。该公司采用专门为医学任务训练的7B参数模型,虽然模型规模较小,但在特定医疗场景下表现优于通用大模型。

  OpenEvidence日均处理临床查询超6万次,已覆盖美国45%的医生群体,月均处理问题量约2000万个。

  Lovable是“Vibe Coding”工具,旨在通过全栈AI开发平台彻底打破软件开发的专业壁垒。不同于市面上仅作为辅助工具的代码助手,Lovable允许用户仅凭自然语言描述即可生成包含React前端、Supabase后端及数据库的完整应用程序,扮演着独立“AI工程师”的角色。

  其产品展现了极强的市场验证能力,30天用户留存率高达85%,商业化方面更是在三个月内实现了年度经常性收入(ARR)从零到1750万美元的爆发式增长。

  Port是一家开发者平台和AI代理管理软件公司,提供一个集成开发者工具目录及AI代理管理的企业内部门户平台。该平台旨在解决企业内部开发工具和AI代理散乱无序、缺乏治理与标准的问题,通过编目、编排和性能监控等功能提升开发团队协同效率。

  Port的核心产品包括开发者工具目录、代理编排层和上下文湖(context lake)功能,用于定义数据源、上下文记忆和操作边界,主要应用于DevOps团队和大型软件工程组织的开发生命周期管理。 Port的客户包括 GitHub、British Telecom、LG等企业客户。

  Harness提供AI驱动的软件交付与开发运维(DevOps)自动化平台,旨在解决软件开发完成代码后测试、验证、安全检查及部署等环节效率低下的问题。

  其平台使用AI代理和软件交付知识图谱技术,自动执行测试和发布流程,提高工程团队交付速度与一致性。核心产品包括自动化测试引擎、AI驱动的流程编排和治理工具,主要应用于大型软件开发组织的软件发布和持续集成/持续部署场景。

  Mirelo旨在解决当前AI视频生成领域面临的一个核心痛点:绝大多数AI生成的视频都是“无声”的。为了填补这一空白,Mirelo致力于构建能够理解视频内容并自动生成同步配乐与音效(SFX)的AI模型。今年早些时候,公司发布了Mirelo SFX v1.5模型,能够解读视频动作并添加精准同步的音效。

  在商业模式上,Mirelo采取双轨策略:短期内通过在Fal.ai和Replicate等平台上提供API接口获取收入;长期则致力于打造面向创作者的专业工作区Mirelo Studio,并通过“免费增值”模式(推荐套餐约20欧元/月)吸引业余爱好者和专业用户。

  Runware是一家为开发者和企业提供高性能AI推理与生成服务的平台公司,其产品通过统一的API接口帮助开发者集成图像、视频和音频等AI生成能力。

  公司解决当前AI模型访问碎片化、推理速度慢和成本高的问题,采用自主设计的推理硬件和优化的软件栈提升效率。其核心技术包括Sonic Inference Engine和统一模型管理架构,主要应用于需要实时AI内容生成和高并发推理的应用场景。

  Oboe是一家利用人工智能生成定制学习课程的平台公司,其产品允许用户输入学习目标并自动生成结构化课程内容,包括章节、文本、音频、测验和抽认卡等多种格式,以解决传统学习资源分散且难以系统学习的问题。

  平台的核心技术是基于大规模语言模型的课程生成引擎,结合章节规划和多模态输出,主要应用于个性化学习、技能培训和知识探索等教育场景,目前以英文课程为主,未来计划支持更多语言和本地化内容。

  Peripheral Labs的核心产品旨在将体育转播从“2D视角”带入“全线D时代”。传统转播依靠上百个机位来实现回放,成本极高且视角受限。Peripheral Labs借用了自动驾驶汽车的感知逻辑,通过在场馆内部署仅32个融合了激光雷达与AI视觉的传感器节点,即可实时构建整场比赛的数字孪生。

  其产品亮点在于,观众可以像玩3D游戏一样,在手机或转播画面中自由旋转角度,甚至查看“膝盖弯曲度”等细微的生物力学数据。这种方案不仅能将转播硬件成本降低70%,还为教练复盘、精准裁决和沉浸式观赛提供了新工具。

  Peripheral Labs的创始团队具备深厚的自动驾驶与机器人学基因。联合创始人Kelvin Cui与Mustafa Khan曾是多伦多大学顶级自动驾驶赛车队的核心成员,在该领域拥有多年的深度共事经历。

  本文由阿尔法公社综合自多个信息源,并在AI模型的辅助下写作,封面图片由AI生成。