六月天色婷婷_免费一级suv好看的国产网站_国产你懂的在线观看_国产一区二区三区视频播放_国产欧美一区二区在线观看_天天干夜夜嗨

首頁 > 以車會友 > 以車會友 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

以車會友更多>>

鳴潮×水月雨聯動U.C.T.S.耳夾式藍牙耳機上架,299元 官宣!追覓科技攜手央視春晚,春晚同款掃地機獻禮全球華人 內存價格狂飆不止!手機、PC等廠商面臨至暗時刻 消息稱OPPO Find N6手機內置6K級電池,大概率春節后登場 6.32英寸小鋼炮來襲:一加15T入網搭載驍龍8 Elite Gen5,3月見 iPhone 17e或2月發布,起售價預計4499元 抖音:將加大對不實信息、網絡暴力等問題的治理力度 京東外賣加熱餐箱擴大覆蓋11城,科技升溫20°C,全職騎手免費配! 2025 ACM Fellow公布!陳寶權、賈佳亞、梅濤、朱軍等多位華人入選 我學者提出新型量子磁傳感器方案 499元鼠標,雙芯旗艦有啥不一樣? 紅魔11 Air:AI游戲圈搜,哪里不會圈哪里? iPhone18 Pro再次被確認:實體壓感按鍵+單挖孔屏,這次真的變了 精準卡位大廠盲區,小眾App悶聲賺大錢 馬斯克最大算力中心建成了:全球首個GW級超算集群,再創世界紀錄 貴州銀行:以自身信用承接19億存款,信托化險突然受寵 零刻ME Pro:零基礎的小白也能輕松上手 胡馨心確認:REDMI Turbo 5系列能吃上國補 IDC:2025年全球智能手機出貨量達12.6億部,蘋果連續三年第一 IDC:2025全球智能手機出貨12.6億部,蘋果連續三年第一,華為國內登頂 “死了么”APP爆火與改名:照見獨居人群的鏡子 AP2O-Coder 讓大模型擁有「錯題本」,像人類一樣按題型高效刷題 2025開年手機大戰打響!榮耀、一加新機曝光,誰才是真香之選? 本月兩款國產超薄機型問世 榮耀VS聯想moto 你支持誰? 紅米Turbo5 Max!這名字了不得 摩托羅拉新機來了,手寫筆成主角,安卓生態要變天? 摩托羅拉MotoWatch智能手表、Moto Tag 2智能追蹤器渲染圖曝光 全面盤點!一文看懂蘋果2025年發布的超16款新品 華為手機別瞎用!8個設置一關,立馬絲滑到飛起! 10萬級純電SUV二選一,歐拉5與深藍S05誰更能吸引年輕人?
主站蜘蛛池模板: 三级国产在线观看 | 一级特黄妇女高潮 | 国产性精品 | 欧美成人免费 | 国产视频福利 | 亚洲日本视频 | 亚洲一区日韩 | 精品二区视频 | 免费毛片大全 | 婷婷精品在线 | 国产一区二区激情 | av中文在线 | 国产精品一区二区av | 九九九视频 | 久久伊人爱 | 免费视频一二三区 | 黄色一级大片在线免费看国产一 | 日韩在线视频免费 | 超碰在线综合 | 中文字幕国产日韩 | 综合九九 | 香蕉av网站 | 日韩免费高清视频 | 在线看黄色片 | 在线观看色网站 | 日本免费一区二区三区四区 | 国产97在线视频 | 久久午夜夜伦鲁鲁片 | 综合五月婷婷 | 福利视频一区二区 | 97爱爱爱 | 成人看片在线观看 | 免费麻豆视频 | 免费a级黄色片 | www网站在线观看 | 亚洲天堂高清 | 老司机黄色影院 | 欧美一级片免费在线观看 | 色欧美日韩 | 三级黄色小视频 | 国产精品久久久网站 |