InternVL

XTuner

MinerU

InternLM-XComposer

InterLM

LLaMA2-Accessory

LMDeploy

VLMEvalKit

OpenCompass

InternVideo

书生通用大模型体系

GitHub 星标总数超 15 万

MinerU

GitHub 星标总数超 4 万

OpenMMLab 浦视

GitHub 星标总数达 13 万

MMDetection

GitHub 星标总数接近 3 万

1,128,814

模型
工具
算法
数据集
评测集

InternVL

8460

开源多模态大模型,性能全球领先,关键指标比肩Gemini、GPT-4V

InterLM

6958

自主可控的高水平开源语言大模型,通过精炼数据框架,实现思维密度的跃升

InternLM-XComposer

2856

开源多模态实时交互大模型

InternVideo

1943

开源视频多模态大模型,AI视频理解既能“短平快”,亦可“长深细”。

DocLayout-YOLO

1400

提供多样性文档预训练及适配文档检测的模型结构优化

PointLLM

850

感知与导航智能-点云多模态大模型

生物大分子基础大模型及大分子设计相关算法

617

包含蛋白质序列预训练模型

MathBlackBox

535

结合MCTS与self-refine,平衡搜索效率与准确率,提高语言模型的推理能力。

InternLM-Math

515

开源数学模型,不仅会“解题”,更会“判题”

UniMERNet

365

将数学表达式图像转换为 LaTeX 的解决方案

LLaVA-3D

276

感知与导航智能-兼具二维多模态能力的三维多模态大模型

Seer

199

视觉预测指导动作执行,端到端操作模型

DeepVerse

128

4D交互式世界模型

风乌

95

全球中期气象预报模型,预报时效首次超过10天

Hulk: A Universal Knowledge Translator for Human-Centric Tasks

88

第一个多模态以人为中心的通用模型

PPI

53

基于关键帧姿态与点云流的双臂协同操作算法

MinerU

8000

将PDF、word转化为机器可读格式的工具

LMDeploy

6611

涵盖大模型的全套轻量化、推理部署和服务解决方案

OpenCompass

5603

大语言模型评测工具,支持万亿大模型高效评测

XTuner

4623

轻量化大模型微调工具,首次支持 8G 显存微调

LLaMA2-Accessory

2800

用于大型语言模型(LLM)和多模式LLM的预训练、微调和部署的开源工具包

VLMEvalKit

2631

多模态模型评测工具,支持主流多模态模型和数据集

PDF-Extract-Kit

1400

功能强大的开源工具箱

labelU

1300

综合性数据标注平台,专为处理多模态数据而设计。

GRUtopia

866

通用具身智能仿真平台,“数模训测”一体化工具链

LabelLLM

858

数据标注平台,优化对于大型语言模型(LLM)开发不可或缺的数据标注过程

OpenSparseLLMs

482

基础架构团队-开源模型线性化工具

magic-html

475

提供一套工具,可轻松从HTML中提取主体区域内容。

InternEvo

393

轻量级大模型训练框架

OpenHomie

339

人形机器人运动智能-人形机器人驾驶舱

OpenAOE

305

大语言模型群聊框架

GraphGen

217

解决 LLM 训练痛点

Scaffold-GS

1023

具有局部感知能力的结构化3DGS模型

Octree-GS

715

具有层次细节结构(LOD)的 3D 高斯方法

HIMLoco

540

运动智能-四足机器人控制算法

MathBlackBox

535

结合MCTS与self-refine,提高语言模型的推理能力。

GSDF

396

一种双分支架构,将 3D 高斯投影(3DGS)与神经符号距离场(SDF)相结合

HoST

287

UniHSI

220

大语言模型驱动的统一人景交互框架

AnySplat

211

未标定的图像集合中进行新视角合成

EgoVideo

127

EgoVis比赛多项冠军解决方案

RoboSplat

116

机器人操作数据生成框架

NavDP

115

感知与导航智能-纯仿真数据训练的通用导航扩散策略

VLM-Grounder

108

感知与导航智能-基于2D VLM的三维视觉目标定位算法

Re3Sim

100

通过GS重建环境,实现百条仿真数据实现多种任务 Sim2Real 迁移

vinci

66

基于第一视角VLM的实时可部署在线助手

EmbodiedScan

609

感知与导航智能-具身多模态三维感知基准

WanJuan1.0

563

书生·万卷多模态语料库的首个开源版本,数据总量超过2TB

CaLM

94

首个大模型可信因果推理开放评测体系及开放平台

EgoExoLearn

61

大规模跨第一、三视角程序性视频数据

CELLO

21

首个多模态大模型可信因果推理能力评测 benchmark

IMDR

10

精确对应的视觉语言检索数据集和模型

MMSafetyBench

1

评估多模态大语言模型在面对恶意图像-文本组合时的安全性的数据集

GRScenes-100

 

高保真物理正确仿真场景数据集

SafeVid

 

大规模视频多模态LLM偏好对齐数据集

LOKI

154

面向大多模态模型的综合性合成数据检测评测基准

SALAD-Bench

152

评测大语言模型的安全评测数据集

Scientists' First Exam

102

Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning
SFE 系统性评测 MLLM 多学科高阶科学认知能力

CaLM

94

首个大模型可信因果推理开放评测体系及开放平台

FLAMES

55

LLM中文高对抗性测试基准

VLSBench

42

多模态安全评测 + 纯文本对齐和多模态对齐baseline

MMSI-Bench

41

感知与导航智能-基于多图的空间智能视觉问答(VQA)基准

GenManip

40

首个LLM驱动的具身推理任务合成和评测

MLLMGuard

33

MLLM 的多维安全评估套件

PhysUniBench

21

An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models
评估多模态大型语言模型针对本科物理问题的推理能力

CELLO

21

首个多模态大模型可信因果推理能力评测 benchmark

RiOSWorld

20

综合性Computer-Use Agent的安全风险评测基准

T2Isafety

15

从公平、毒性、隐私层面对文生图模型进行安全评测

SeedBench

13

补充 LLM 在种业领域评测空白

MORE

13

首个从因果角度量化和评估多模态大模型单模态偏见问题的 benchmark

Fake-Alignment

12

验证伪对齐问题的存在,并提出伪对齐评估 (FINE) 框架

Reflection-Bench

10

系统地评估大型语言模型作为自主智能体核心的认知能动性

ESC-Eval

8

一套pipeline高效解决情感陪伴模型的效果评估问题

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn