LMArena官网：AI 模型评测排行榜平台 | 开放式 AI 模型评测平台

关于LMArena

LMArena（原名 Chatbot Arena）是由加州大学伯克利分校 SkyLab 团队开发的开放式 AI 模型评测平台，致力于通过众包式、社区驱动的方式评估和比较大型语言模型。该平台通过让用户对来自两个匿名 AI 模型的回答进行盲测投票，从而收集真实的人类偏好数据，进而生成基于实际用户评价的公开排行榜。相比传统的自动化基准测试，LMArena 强调真实世界应用场景下的模型表现，已累积超过 100 万用户投票，成为全球最具影响力的大模型竞技场。

LMArena 最革命性的创新是 Prompt-to-Leaderboard（P2L）功能，它能根据用户输入的特定任务提示实时生成定制化排行榜，解决了传统全局排名无法反映模型在特定场景下表现的痛点。平台支持文本生成、编程、视觉、搜索、图像生成等多个赛道，并设有 Arena-Hard、LiveBench、LiveCodeBench 等专业维度的子排行榜。用户可与包括 GPT-4o、Claude 3.5、Gemini 2.5、o1-mini、DeepSeek-R1 等顶级模型互动，同时完全免费使用，无需注册，所有投票数据公开发布供学术研究。

LMArena的主要功能

匿名对战与投票：用户输入问题后，系统随机分配两个隐藏身份的 AI 模型生成回答。用户仅基于回答质量进行投票（更好/平局/更差），投票后才揭示模型身份。这种盲测机制有效消除品牌偏差，确保投票的公正性。

实时动态排行榜：采用 Elo 等级分系统（类似国际象棋排名）根据成千上万用户投票动态调整模型排名。排行榜实时更新，用户可清晰了解不同模型的相对性能排序和具体分数。

Prompt-to-Leaderboard（P2L）：革命性功能，根据用户输入的特定提示（如编程任务、创意写作等）实时生成定制化排行榜。用户可获得针对自己具体用例的模型排名，而非依赖全局排名。

多赛道评测：设有多个专业维度的竞技场：通用文本聊天、编程（WebDev、Copilot）、视觉、搜索、文字转图像、图像编辑等。每个赛道都有独立排行榜，确保模型在不同任务类型的表现都得到准确评估。

多轮对话支持：支持用户与匿名模型进行多轮对话和追问，模拟真实交互场景。每一轮投票都会被记录，逐步完善模型排名。

专业维度子排行榜：包括 Arena-Hard（针对困难提示）、LiveBench（实时性能）、LiveCodeBench（编程能力）、MMLU-Pro（专业学科理解）等。提供细致、多维度的模型性能分析。

开放数据与研究资源：所有匿名化的提示和投票数据通过 Hugging Face 等平台公开发布，供学术研究社区使用。LMSYS-Chat-1M 数据集已成为 AI 偏好学习的重要资源。

模型身份揭示与反馈：投票后平台立即揭示两个模型的身份和具体排名信息，提供即时反馈。用户可了解自己的偏好与全球用户评价的对比。

海量模型支持：集成 40+ AI 模型，包括 OpenAI、Google DeepMind、Anthropic、Meta 等官方模型，以及开源社区的最新模型。还支持预发布版本和研究型微调模型的测试。

自定义模型选择：用户除参与随机对战外，也可自行选择想要对比的两个或多个模型，直接进行人工对话和测试。提供更灵活的比较方式。

LMArena的使用场景

新模型发布前的预测试

DeepSeek 在官方发布前数月便在 LMArena 上测试 R1 模型原型；OpenAI 用「summit」代号测试 GPT-5 变体；Google 用「nano-banana」代号测试 Gemini-2.5-Flash。

模型性能快速对比与选型

企业在选择集成哪个 AI 模型时，可直接通过排行榜和实时测试快速了解不同模型在自己的应用场景中的表现。

任务特定的模型排名

当需要处理特定任务（如编程、数据分析、创意写作）时，使用 P2L 功能输入相关提示，获得该任务下的专业排行榜。

学术研究与论文写作

研究人员利用平台的百万级数据集研究人类偏好、模型偏见、AI 对齐等课题，发表高质量学术成果。

教育与 AI 技能培养

教师使用 LMArena 作为教学工具，让学生亲身体验不同 AI 模型的能力差异，加深对 AI 技术的理解。

代码编程能力评测

通过 LiveCodeBench 赛道对比模型的代码生成、调试、算法设计能力，找到最擅长编程的模型。

市场研究与竞争分析

企业通过排行榜变化趋势分析竞争对手的 AI 发展方向，做出战略决策。

内容创意生成对比

营销团队对比不同模型的文案生成、创意建议能力，选择最适合的模型进行内容创作。

模型失败模式分析

开发者通过投票数据分析特定模型在哪些任务上容易失败，进而针对性地优化模型。

开源与闭源模型性能对标

社区开发者通过排行榜直观看到开源模型（如 Llama、Qwen）与商业闭源模型（如 GPT-4）的实际性能差距。

LMArena适合什么人用

AI 研究人员与学者

可利用平台的百万级投票数据集进行学术研究，研究人类偏好、模型失败模式、AI 对齐等课题。开放数据加速学术创新，是顶级 AI 研究机构的重要工具。

AI 模型开发者与公司

企业可在 LMArena 上发布和测试新模型，从排行榜数据了解竞争位置和优化方向。许多大型 AI 公司（OpenAI、Google、Meta 等）均在平台发布官方模型。

产品经理与工程师

在选择 AI 模型集成到产品前，可通过排行榜和 P2L 功能评估模型在特定任务上的表现。支持做出更明智的技术选型决策。

创业公司与初创团队

无需付费即可获得全球顶级 AI 模型的对话体验和性能对比。帮助团队快速了解市场现状，选择最适合的基础模型进行定制。

内容创作者与营销人员

可对比不同 AI 模型的文案生成、创意能力。快速找到最适合内容创作的模型，提升工作效率和内容质量。

编程开发者

通过 LiveCodeBench 等专业赛道对比模型的编码能力。可发现在编程、算法设计等特定任务上表现最优的模型。

教育工作者与学生

提供直观的 AI 技术教学工具，帮助学生实践不同模型的能力和局限性。无成本的学习资源，适合 AI 教育和培训。

AI 爱好者与普通用户

任何对 AI 感兴趣的人都可免费体验最新、最强的 AI 模型。通过参与投票直接为全球 AI 发展做贡献，了解 AI 进展趋势。

怎样使用LMArena

访问平台：打开浏览器访问 https://lmarena.ai。无需注册或登录即可使用，完全匿名访问。

输入问题或提示：在聊天框中输入任何问题、任务或提示（Prompt）。可以是日常对话、编程问题、创意任务、学术问题等任何内容。

接收匿名模型回答：系统自动为用户分配两个匿名 AI 模型，两个模型独立生成对该问题的回答。用户在不知道模型身份的情况下查看两个回答。

比较和投票：仔细阅读两个模型的回答，点击「更好」按钮选择更优答案，或选择「平局」/「更差」。根据回答的质量、准确性、创意性等进行综合评估。

查看模型身份与排名：投票后，平台立即揭示两个模型的名称。用户可看到它们在整体排行榜中的排名和 Elo 评分。

浏览实时排行榜：点击「Leaderboard」查看全球最新排行榜，了解所有模型的综合排名。可按不同赛道（文本、编程、视觉等）切换排行榜。

使用 Prompt-to-Leaderboard：在 P2L 功能中输入特定任务提示，系统会生成该任务下的定制化排行榜，显示哪些模型最适合该类任务。

自定义模型选择：除随机对战外，用户也可在「Custom Compare」模式中自行选择两个或多个特定模型进行直接对话比较。

多轮对话追问：支持在同一对话中向两个模型继续提问（追问），进一步测试和对比模型的连贯性和深度理解能力。

查看数据和统计：平台公开显示每个模型的总对战次数、赢率、平均 Elo 评分等统计数据。用户可基于这些数据做出更明智的选择。

访问开放数据：通过 Hugging Face 等途径下载 LMSYS-Chat-1M 数据集和其他研究数据，用于学术研究或模型训练。

参与社区与反馈：用户可在平台上反馈问题、提出改进建议。平台根据社区反馈持续优化评估方法和功能。

LMArena

关于LMArena

LMArena的主要功能

LMArena的使用场景

LMArena适合什么人用

怎样使用LMArena

流量分析

流量来源分布

相关标签

收费策略