Open LLM Leaderboard_Ai平臺模型

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI語言模型評估框架）封裝。

由于社區在發布了大量的大型語言模型（LLM）和聊天機器人之后，往往伴隨著對其性能的夸大宣傳，很難過濾出開源社區取得的真正進展以及目前的最先進模型。因此，Hugging Face 使用 Eleuther AI語言模型評估框架對模型進行四個關鍵基準測試評估。這是一個統一的框架，用于在大量不同的評估任務上測試生成式語言模型。

Open LLM Leaderboard 的評估基準

AI2 推理挑戰（25-shot）：一組小學科學問題
HellaSwag（10-shot）：一個測試常識推理的任務，對人類來說很容易（大約95%），但對SOTA模型來說具有挑戰性。
MMLU（5-shot）- 用于測量文本模型的多任務準確性。測試涵蓋57個任務，包括基本數學、美國歷史、計算機科學、法律等等。
TruthfulQA（0-shot）- 用于測量模型復制在在線常見虛假信息中的傾向性。

相關網站

GPT-4

GPT-4（Generative Pre-trained Transformer）是 OpenAI 開發的自然語言處理模型 GPT 家族中的第四個版本，該模型依靠強大的神經網絡來理解和生成類似人類的語言。

Auto-GPT

Auto-GPT是一個實驗性開源應用程序，展示了GPT-4語言模型的真正潛力，GitHub上超10萬人星標。該程序由 GPT-4 驅動，將LLM大語言模型思想鏈接在一起，以自主實現你設定的任何目標。作為GPT-4完全自主運行的首批例子之一，Auto-GPT突破了人工智能的極限，距離AGI通用人工智能又近了一步。

AgentGPT

在瀏覽器中組裝、配置和部署自主人工智能的開源項目

悟道

2021年6月，北京智源研究院（BAAI）推出了悟道1.0的后續版本悟道2.0，作為中國第一個超大規模智能模型系統。悟道是一個語言模型，旨在在人類層面的思維上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。

騰訊混元大模型

騰訊混元大模型是由騰訊自主研發的大語言模型，擁有超千億參數規模，預訓練語料超2萬億tokens，具有強大的中文理解與創作能力、邏輯推理能力，以及可靠的任務執行能力。

Gradio

Gradio是一個開源的Python庫，用于構建演示機器學習或數據科學，以及web應用程序。用戶可以使用Gradio基于自己的機器學習模型或數據科學工作流快速創建一個漂亮的用戶界面，讓用戶可以嘗試拖放他們自己的圖像、粘貼文本、錄制他們自己的聲音，并通過瀏覽器與您的演示程序進行交互。

DeepFloyd IF

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究團隊推出的開源的文本到圖像生成模型，IF是一個基于級聯方法的模塊化神經網絡。

Cohere

Cohere是一個提供大語言模型的平臺，幫助開發人員和企業構建高性能的AI產品。該平臺主要提供AI驅動的搜索文本（多語言嵌入、神經搜索、搜索排名）、分類文本和生成文本等服務，可幫助企業快速部署對話式AI聊天機器人、生成式搜索引擎、文本摘要總結、增強向量檢索等。

DALL·E 2

OpenAI旗下DALL·E 2圖像生成模型

Codex

OpenAI旗下AI代碼生成訓練模型

文心大模型

百度推出的產業級知識增強大模型

序列猴子

序列猴子是出門問問推出的一款超大規模的語言模型，具有長序列、多模態、單模型、大數據等特點。利用其通用的表示能力與推理能力，用戶能夠進行多輪交互，從而在使用中獲得更加便捷流暢的體驗。

MOSS

MOSS是復旦大學團隊開發的國內第一個發布的對話式大型語言模型，今年2月邀公眾參與內測。它可以執行對話生成、編程、事實問答等一系列任務，打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術路徑。4月21日，新版MOSS模型正式上線并宣布開源。

魔搭社區

阿里達摩院推出的AI模型社區，超過300+開源AI模型

訊飛星火認知大模型

「訊飛星火認知大模型」是科大訊飛于2023年5月6日在訊飛星火認知大模型成果發布會上發布的類ChatGPT產品。訊飛星火認知大模型是以中文為核心的新一代認知智能大模型，擁有跨領域的知識和語言理解能力，能夠基于自然對話方式理解與執行任務。從海量數據和大規模知識中持續進化，實現從提出、規劃到解決問題的全流程閉環。

BLOOM

HuggingFace推出的大型語言模型（LLM）

商量SenseChat

商量SenseChat是由商湯科技研發的一款基于自然語言處理技術的人工智能大語言模型，具備超凡的語言理解、生成能力，將科技與人文相互交融。

阿里巴巴M6

M6是阿里巴巴達摩院推出的，中文社區最大的跨模態預訓練模型，模型參數達到十萬億以上，具有強大的多模態表征能力。M6通過將不同模態的信息經過統一加工處理，沉淀成知識表征，為各個行業場景提供語言理解、圖像處理、知識表征等智能服務

亚洲国产精品一区二区三区久久-亚洲国产精品一区二区首页-亚洲国产精品影院-亚洲国产精品张柏芝在线观看-日本不卡高清免费v-日本不卡免费高清一级视频

AI網址導航

Open LLM Leaderboard

Open LLM Leaderboard 的評估基準

相關網站