| 更全面的图文混合创作能力
浦语灵笔2.0具有更全面的图文混合创作能力,并提供完善的图文内容编辑工具,支持用户灵活定制专属文章。相比上一代版本,浦语灵笔2.0带来四个维度的用户体验提升。
更精准:准确遵循用户指令
浦语灵笔2.0可准确理解自然语言指令,用户可通过输入内容梗概、文章大纲、关键词等框架和要点,实现对文章内容更精准的控制,使生成文章符合用户预期。
例如要求浦语灵笔2.0撰写一篇关于大熊猫的科普文章,首先介绍大熊猫的基本特征,其次探讨大熊猫的自然栖息地及面临的环境挑战,之后讨论大熊猫的保护工作现状,最后分析大熊猫的文化符号意义。浦语灵笔2.0根据上述写作要求,精准地完成了图文文章创作。
更个性:支持用户定制化素材输入
为实现用户的个性化创作需求,浦语灵笔2.0支持用户上传图像和文本素材,并根据用户要求,使用规定素材定制图文文章,保证用户的内容原创性需求。
例如,根据图片素材和文字要求,让浦语灵笔创2.0作一篇文笔细腻温暖的哈尔滨游记。
更丰富:支持各种体裁、场景的内容需求
浦语灵笔2.0不仅大幅提升了写作水平,还支持多样化体裁和实用场景的文章写作。根据用户要求,浦语灵笔2.0可生成如知乎问答、小红书笔记等网络跟帖、实用公文、节日祝福、古体诗等多样化风格的内容类型,满足不同场景的使用需求。
更专业:提供完善的图文内容编辑工具
在支持用户创作高质量图文内容的同时,浦语灵笔2.0也提供了完善的内容智能修改和编辑工具,可对文章内容缩写、扩写、根据用户指令改写等,通过提升交互能力,助力用户高效创作。
| 图文理解能力显著提升,多项表现比肩多模态模型标杆
在大模型评测平台OpenCompass的创作能力评测集CreationBench上,浦语灵笔2.0的平均成绩接近GPT-4,其中“内容丰富度”单项评测中,表现超越了GPT-4,并综合领先其他高性能开源模型。
高质量的图文写作,离不开强大的图文理解能力的支持。如下图所示,在包括MMMU、MME、MMBench在内的12个主流评测集上,InternLM-XComposer2-VL大幅领先同量级开源模型(参见右图),在MME、MMBench、MathVista等6项评测中取得比GPT-4V和Gemini Pro更好的成绩。
更多评测细节和分数,请见开源代码仓库:https://github.com/InternLM/InternLM-XComposer?tab=readme-ov-file#evaluation
在实测对话表现方面,浦语灵笔2.0能对图像进行精细理解,体现了模型丰富的多模态知识和强大的推理能力。
| 全新多模态架构Partial-LoRA
浦语灵笔2.0可以同时兼顾图文创作和多模态理解能力,得益于浦语灵笔团队提出的全新多模态模型架构Partial-LoRA (P-LoRA)。
在此架构下,对于输入的文字词牌(Text Token),P-LoRA使用原本模型结构进行推理;对于图像编码(Image Token),通过额外的P-LoRA参数赋予模型对图像内容的深刻理解。通过上述方式使模型在实现多模态性能领先的同时,高效地保留了语言基座的能力。
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1