AiDesk

AiDesk AiDesk AiDesk AiDesk
  • 站点推荐
    • AI学习
      • AI快讯
      • AI教程
    • 关于我们
  • AI写作工具
  • AI图像工具
    • 常用AI图像工具
    • AI图片插画生成
    • AI图片背景移除
    • AI图片无损放大
    • AI图片优化修复
    • AI图片物体抹除
  • AI视频工具
  • AI办公工具
    • AI幻灯片和演示
    • AI表格数据处理
    • AI文档工具
    • AI思维导图
    • AI会议工具
    • AI效率提升
  • AI对话聊天
  • AI音频工具
  • AI编程工具
  • AI设计工具
  • AI内容检测
  • AI学习网站
  • AI开发框架
  • AI提示指令
  • AI训练模型
  • AI模型评测
AiDesk AiDesk
  • AiDesk
    • AI写作工具
    • AI图像工具
    • AI视频工具
    • AI办公工具
    • AI对话聊天
    • AI音频工具
    • AI编程工具
    • AI设计工具
    • AI内容检测
    • AI学习网站
    • AI开发框架
    • AI提示指令
    • AI训练模型
    • AI模型评测
  • AI学习
    • AI快讯
    • AI教程
  • 关于我们
PubMedQA
AI模型评测

PubMedQA

生物医学研究问答数据集和模型得分排行榜

标签: AI模型评测
链接直达 手机查看

PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。

该页面内容传达的一切观点信息仅代表原作者,AiDesk平台仅提供信息存储展示服务。

类似网站

/uploadfile/202312/f6f5c0bd616b2f9.png#没有设置高宽参数,将以原图输出
Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

/uploadfile/202312/a529b7084e2df7f.png#没有设置高宽参数,将以原图输出
MMLU

大规模多任务语言理解基准

/uploadfile/202312/3ab9bba29fc079e.png#没有设置高宽参数,将以原图输出
SuperCLUE

中文通用大模型综合性测评基准

/uploadfile/202312/b095cd10d03098a.png#没有设置高宽参数,将以原图输出
H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

/uploadfile/202312/8e85d7e1e5d1f59.png#没有设置高宽参数,将以原图输出
FlagEval

智源研究院推出的FlagEval(天秤)大模型评测平台

/uploadfile/202312/95d5734a7c70f43.png#没有设置高宽参数,将以原图输出
LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

/uploadfile/202312/5b9b709af117441.png#没有设置高宽参数,将以原图输出
C-Eval

一个全面的中文基础模型评估套件

/uploadfile/202312/88695f879b976.png#没有设置高宽参数,将以原图输出
OpenCompass

上海人工智能实验室推出的大模型开放评测体系

/uploadfile/202312/a4e6d5dafe3a5ca.png#没有设置高宽参数,将以原图输出
CMMLU

一个综合性的大模型中文评估基准

反馈
让我们一起共建文明社区!您的反馈至关重要!
按住 Ctrl+D    或    ⌘+D 键,
把https://ai.onesaying.com/收藏起来吧!
AiDesk AiDesk
AiDesk收录了上千个AI工具,每日更新最新AI工具和资讯; AiDesk还汇集了AI学习研发的常用网站、框架和模型,助你在AI浪潮里高效完成任务!

AiDesk 关于我们 免责声明 友情链接

关注我们

Copyright © AiDesk  苏ICP备2023018364号-1