国内精品久久久久久99,japan丰满人妻hdxxxx,人妻丝袜av中文系列先锋影音,成人丝袜激情一区二区,国产卡1卡2卡3,亚洲欧美日韩一区在线观看,亚洲高清一区二区三区电影,丰满岳乱妇
聚慕 - 專業醫療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
openai發布最新開源框架:醫療大模型評估瞄準現實情況
發布時間:2025-05-19 09:12:17

OpenAI近日發布了一款開源基準測試工具,旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數據集超越了傳統的考試式提問,它基于醫學專家認為最重要的內容,測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發和部署得當,大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫生提供高質量的醫療服務,并幫助人們維護自身及其社區的健康。"

公司高管在博文中表示:"評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力,但許多現有評估未能反映真實場景,缺乏基于醫學專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"

該公司表示,該評估框架是與來自60個國家的262名執業醫師合作構建的。

HealthBench內置了5000個真實的醫療對話,并根據醫生制定的評分標準對模型的回應進行評分,評估其安全性、適當性和準確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫生之間的互動,這些對話通過合成生成和人工對抗測試產生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫療服務提供者的角色,跨越了多個醫學專業和背景,并根據難度進行了篩選。"

HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準。基于滿足的標準所獲總分,與可能獲得的最高分數進行比較,得到模型回應的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

OpenAI 健康人工智能團隊負責人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發有益于人類的模型";二是醫療機構,旨在"提供高質量證據,以更好地理解當前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發旨在遵循幾項核心原則來評估醫療領域的AI系統。首先,該公司稱,評分應反映現實世界的影響。OpenAI在博文中表示:"這應超越考題范圍,捕捉復雜的現實生活場景和工作流程,以反映個人和臨床醫生與模型互動的方式。"

同時,評估還應反映醫療專業人士的標準和優先事項,為改進AI系統提供堅實的基礎。該公司指出:"應顯示出巨大的改進空間,從而激勵模型開發者持續提升性能。"

斯坦福AI 研究與科學評估中心執行主任Ethan Goh表示,HealthBench是推動醫療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴于選擇題,這些題目通常來自醫生資格考試。這些基準現已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務級評估的基準彌補了這一空白,涵蓋了患者和臨床醫生的使用場景。"

Goh表示,許多行業參與者早已將其模型用于各種醫療保健應用,但坦率地說,在對AI回答進行穩健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現最佳。但值得注意的是,也有行業人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現最佳,這一做法存在風險。如果不公開其模型及數據集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫療健康領域動作頻頻,該公司正與賽諾菲和Formation Bio合作,構建一款由AI驅動的工具,旨在通過加速臨床試驗招募來改進藥物研發。Iodine Software也正與OpenAI合作,將包括GPT-4在內的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發了生成式AI工具,包括一款AI驅動的癌癥輔助診療應用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心 (UTHealth Houston) 也與OpenAI合作,構建和部署用于醫學培訓和患者床旁的算法。


注:文章來源于網絡,如有侵權,請聯系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調
  • 其他
* 手機號碼:
* 姓名:
主站蜘蛛池模板: 国产无人区码卡二卡3卡4卡| 免费播放很黄很色毛片| 国产精品爱久久久久久久| 欧美乱大交aaaa片if| 国产精品成人一区二区三区视频| 成人精品| 中文在线最新版天堂8| 新婚少妇浑圆雪白的臀| 亚洲成人网| 忘忧草www日本高清| 被粗大黑人jib捣出了白浆| 果冻传媒在线观看视频| 成人性电影| 午夜精品一区二区三区免费视频| 国产精品久久久久久久| 国产精品99精品久久免费| 被黑人玩得站不起来| 国产永久av福利在线观看| 18禁男女污污污午夜网站免费| 国精产品一二二线网站| 欧美丰满熟妇xxxx性ppx人交| 国产70老熟女重口小伙子| 亚洲国产精品久久久久秋霞小说| japanesehd熟女熟妇| 大肉大捧一进一出视频出来呀| 啊灬啊灬啊灬快灬喷水了| 国产熟女老妇300部mp4| 人人妻人人澡人人爽| 欧美18videos极品massage | 国产大屁股视频免费区| 好姑娘7免费高清观看| 欧美高清精品一区二区| 蜜桃视频一区二区三区在线观看| a4yy私人毛片| 亚洲免费视频免在线观看| 国产精品一区二区在线观看| 久草热8精品视频在线观看| 《朋友的未婚妻》hd中字在线观看| 国产激情久久久久影院老熟女免费| 邻家美姨在线观看全集免费| 97人妻无码一区二区精品免费|