亚洲av不卡无码国产,国产l精品国产亚洲区久久,东京热无码免费a片免费下载,99久久精品日本一区二区免费

首頁 > 宏觀 >

醫(yī)療等垂直領(lǐng)域語料數(shù)據(jù)稀缺 能讓倆ChatGPT對聊出來嗎?青年科學(xué)家這樣認為_短訊

2023-05-30 15:20:31 新民晚報

都說醫(yī)療、金融等專業(yè)領(lǐng)域的語料數(shù)據(jù)稀缺,這會制約AI大模型的發(fā)展——那能不能讓兩個ChatGPT對聊,聊出點數(shù)據(jù)出來?


(相關(guān)資料圖)

近日,天橋腦科學(xué)研究院(TCCI)主辦了AI For Brain Science系列會議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對醫(yī)療領(lǐng)域的啟示”。

在上海交通大學(xué)計算機科學(xué)與工程系副教授吳夢玥主持下,三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實踐。

快速構(gòu)建專屬GPT

國際上一項研究評估指出,ChatGPT回答癌癥相關(guān)問題的水平已經(jīng)與美國國家癌癥研究所的回答持平。不過,ChatGPT只能通過受限的應(yīng)用程序編程接口訪問;并且涉及到個人醫(yī)療,人們也普遍不希望將自己的隱私信息分享給第三方公司。

針對這樣的難題,加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團隊的合作者提出了一種能自動生成高質(zhì)量多輪聊天語料庫的流程,利用ChatGPT與其自身進行對話,生成對話數(shù)據(jù),再基于產(chǎn)生的對話數(shù)據(jù)調(diào)優(yōu)、增強開源的大型語言模型。他們從而獲得了高質(zhì)量的專屬模型“白澤”,并在數(shù)天前推出了2.0版本。這個名字的靈感來源是中國古代傳說中的一種神獸,“能言語,達知萬物之情”。

許燦文介紹,“白澤”在這個過程中并沒有學(xué)會新的知識,只是提取了大模型中的特定數(shù)據(jù),并且保留了ChatGPT “分點作答”“拒絕回答”等語言能力。這在專業(yè)上被比喻為一種“蒸餾”。進一步地,他們提出了反饋自蒸餾的概念,即利用ChatGPT當(dāng)教官,對“白澤”回答的結(jié)果進行評分排序,從而進一步提高了“白澤”模型的性能。

許燦文認為,“白澤”通過自動化的知識蒸餾,在特定領(lǐng)域達到ChatGPT的能力,成本卻遠遠低于ChatGPT,兼具經(jīng)濟意義和實用意義。在醫(yī)療領(lǐng)域,本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮,輔助患者診療。

大模型優(yōu)化醫(yī)療文本挖掘

萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略,并在命名實體識別、關(guān)系提取等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更佳表現(xiàn)。

ChatGPT具有創(chuàng)造性的寫作能力,在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識密集型領(lǐng)域表現(xiàn)出色。然而,具體到醫(yī)療文本挖掘,他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù),表現(xiàn)并不總是優(yōu)秀,也可能引發(fā)隱私問題。

唐瑞祥等提出了一種新策略:利用大型模型生成大量醫(yī)療數(shù)據(jù),再通過小型模型對這些數(shù)據(jù)進行訓(xùn)練。實驗結(jié)果顯示,相較于直接利用大型模型執(zhí)行下游任務(wù),這一新策略能夠取得更出色的效果,同時因為模型數(shù)據(jù)在本地,也大幅降低了潛在的隱私風(fēng)險。

他們進一步指出,隨著開源大模型數(shù)量的增加和大模型能力的提升,其產(chǎn)生的文本數(shù)據(jù)與人類產(chǎn)生的文本數(shù)據(jù)的差別將越來越小,發(fā)展檢測二者差別的技術(shù)手段將是一項富有挑戰(zhàn)性的工作?,F(xiàn)有的兩種檢測手段,無論是黑盒檢測——直接比較大模型生成的文本數(shù)據(jù)與人類生成的文本數(shù)據(jù)(比如比較高頻詞分布),還是白盒檢測——開發(fā)者在生成文本上做標(biāo)簽,在未來都可能失效。能否有效地檢測出數(shù)據(jù)是不是GPT生成的,將影響到廣大用戶對大模型AI的信任程度。

大模型時代數(shù)據(jù)生成不一樣

從歷史演變的角度來看,在沒有GPT的時代,科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題?大模型又帶來了哪些新趨勢?

上海交通大學(xué)博士生曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時代的幾大新趨勢:首先是構(gòu)建更加通用的模型,以確保其能夠應(yīng)用于多樣化的任務(wù)——這意味著模型需要具備廣泛的適應(yīng)性和泛化能力;其次是從特定任務(wù)出發(fā),進一步精細化地處理,例如在醫(yī)療領(lǐng)域,甚至可以針對特定類型的抑郁癥進行專業(yè)化的任務(wù)處理,提供更加精準(zhǔn)和個性化的解決方案;最后,數(shù)據(jù)生成和模型訓(xùn)練的過程將從分離走向融合,而為了保證數(shù)據(jù)質(zhì)量的硬性過濾也將逐漸被軟性控制所取代。

“數(shù)據(jù)生成研究與應(yīng)用的發(fā)展,為大模型AI走向各個專業(yè)領(lǐng)域,尤其是醫(yī)療領(lǐng)域提供廣闊的可能性?!辈苋鹕f。

記者獲悉,TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流。AI For Brain Science系列會議致力于促進AI與腦科學(xué)研究人員的討論合作,將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點,促進前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價值。

新民晚報記者 郜陽

關(guān)鍵詞

相關(guān)推薦

再深点灬舒服灬太大了添gif| 国产偷窥熟妇高潮呻吟| 西瓜视频高清在线观看免费| 欧美老肥婆牲交videos | 亚洲2022国产成人精品无码区| 国产成人精品亚洲777人妖| 国精品无码人妻一区二区三区| 激情综合色综合啪啪开心| 日日婷婷夜日日天干a片| 最美情侣免费视频播放在线看| 成年免费视频黄网站在线观看| 深夜爽爽动态图无遮无挡| 无套内谢少妇毛片a片小说| 一本大道无码人妻精品专区| 精品久久人妻av中文字幕| 朋友新婚人妻无套| 精品人妻无码专区在中文字幕| 无码爽大片日本无码aaa特黄| 无码日韩精品一区二区免费暖暖| 国产亚洲AV无码AV男人的天堂| C了瑜伽老师一节课网站| 少妇aaa级久久久无码精品片| 亚洲日韩精品无码一区二区三区| 久久亚洲AV无码国产精品| 亚洲av无码一区二区乱子仑| 精品人妻无码区在线视频| 欧美亚洲日韩国产人成在线播放 | 欧美日韩精品一区二区在线播放| 久久精品a亚洲国产v高清不卡| 免费无码成人AV在线播 | 永久免费不卡在线观看黄网站| 小雪被老汉各种姿势玩弄| 无码人妻aⅤ一区二区三区| 处破痛哭A√18成年片免费| 日本无翼乌邪恶彩色大全| 精品无码乱码av| 欧美日韩久久久精品a片| 久久九九久精品国产免费直播 | 日韩精品无码熟人妻视频| 最近最新的日本字幕mv| 城中村勾搭老熟女啪啪|