MMBench_Ai平臺模型_AI工具導航

理解、關系推理等 20 個細粒度評估維度

更具魯棒性的評估方式。相同單選問題循環選項提問，模型輸出全部指向同一答案認定為通過，相比傳統1次性通過評估 top-1 準確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對評測結果的影響，保證了結果的可復現性。

更可靠的模型輸出提取方法�；� ChatGPT 匹配模型輸出與選項，即使模型未按照指令輸出也可準確匹配至最合理選項

相關網站

GPT-4

GPT-4（Generative Pre-trained Transformer）是 OpenAI 開發的自然語言處理模型 GPT 家族中的第四個版本，該模型依靠強大的神經網絡來理解和生成類似人類的語言。

Auto-GPT是一個實驗性開源應用程序，展示了GPT-4語言模型的真正潛力，GitHub上超10萬人星標。該程序由 GPT-4 驅動，將LLM大語言模型思想鏈接在一起，以自主實現你設定的任何目標。作為GPT-4完全自主運行的首批例子之一，Auto-GPT突破了人工智能的極限，距離AGI通用人工智能又近了一步。

在瀏覽器中組裝、配置和部署自主人工智能的開源項目

2021年6月，北京智源研究院（BAAI）推出了悟道1.0的后續版本悟道2.0，作為中國第一個超大規模智能模型系統。悟道是一個語言模型，旨在在人類層面的思維上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。

騰訊混元大模型

騰訊混元大模型是由騰訊自主研發的大語言模型，擁有超千億參數規模，預訓練語料超2萬億tokens，具有強大的中文理解與創作能力、邏輯推理能力，以及可靠的任務執行能力。

Gradio是一個開源的Python庫，用于構建演示機器學習或數據科學，以及web應用程序。用戶可以使用Gradio基于自己的機器學習模型或數據科學工作流快速創建一個漂亮的用戶界面，讓用戶可以嘗試拖放他們自己的圖像、粘貼文本、錄制他們自己的聲音，并通過瀏覽器與您的演示程序進行交互。

DeepFloyd IF

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究團隊推出的開源的文本到圖像生成模型，IF是一個基于級聯方法的模塊化神經網絡。

Cohere是一個提供大語言模型的平臺，幫助開發人員和企業構建高性能的AI產品。該平臺主要提供AI驅動的搜索文本（多語言嵌入、神經搜索、搜索排名）、分類文本和生成文本等服務，可幫助企業快速部署對話式AI聊天機器人、生成式搜索引擎、文本摘要總結、增強向量檢索等。

OpenAI旗下DALL·E 2圖像生成模型

OpenAI旗下AI代碼生成訓練模型

文心大模型

百度推出的產業級知識增強大模型

序列猴子

序列猴子是出門問問推出的一款超大規模的語言模型，具有長序列、多模態、單模型、大數據等特點。利用其通用的表示能力與推理能力，用戶能夠進行多輪交互，從而在使用中獲得更加便捷流暢的體驗。

MOSS

MOSS是復旦大學團隊開發的國內第一個發布的對話式大型語言模型，今年2月邀公眾參與內測。它可以執行對話生成、編程、事實問答等一系列任務，打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術路徑。4月21日，新版MOSS模型正式上線并宣布開源。

魔搭社區

阿里達摩院推出的AI模型社區，超過300+開源AI模型

訊飛星火認知大模型

「訊飛星火認知大模型」是科大訊飛于2023年5月6日在訊飛星火認知大模型成果發布會上發布的類ChatGPT產品。訊飛星火認知大模型是以中文為核心的新一代認知智能大模型，擁有跨領域的知識和語言理解能力，能夠基于自然對話方式理解與執行任務。從海量數據和大規模知識中持續進化，實現從提出、規劃到解決問題的全流程閉環。

HuggingFace推出的大型語言模型（LLM）

商量SenseChat

商量SenseChat是由商湯科技研發的一款基于自然語言處理技術的人工智能大語言模型，具備超凡的語言理解、生成能力，將科技與人文相互交融。

阿里巴巴M6

M6是阿里巴巴達摩院推出的，中文社區最大的跨模態預訓練模型，模型參數達到十萬億以上，具有強大的多模態表征能力。M6通過將不同模態的信息經過統一加工處理，沉淀成知識表征，為各個行業場景提供語言理解、圖像處理、知識表征等智能服務