中央研究院先前推出语言模型CKIP-Llama-2-7b,与Chat-GPT一样采用问答方式,可用于文案生成、语言翻译等。不过,专家发现,此语言模型采用中国资料「简转繁」,因此有不少问答内容,都以中国文化回答,用语也是中国用语。
后续中研院将系统下架,中研院也说,此为个人小型研究,希望将明清人物的生平进行自动化分析,建构自动化的历史人物、事件等事理图谱,民众的提问超出原始研究范畴,导致语言模型产生的内容出乎预期,未来研究及成果释出会更加谨慎。中研院也称,将规划成立「生成式AI风险研究小组」,深入了解AI对社会的冲击,提供研究人员相关指引,避免类似事件再度发生。
立法院教育及文化委员会今天邀请中研院院长廖俊智列席报告业务概况,并备质询,也审查明年度中研院预算案。多位立委在质询时,关切CKIP-Llama-2-7b出包争议。
对于事发原因,廖俊智在立委质询时表示,此语言模型是一名研究人员求快心切,把尚未完全测试完毕的软体,以开源精神放上网,请大家一同测试。
廖俊智也说,此计划并非针对生成式AI,而是做明清人物相关研究,后来发现有机会可以用新技术,研究人员才拿这些经费去做,原来的计划并没有要做到生成式AI。
廖俊智坦言,把尚未完全测试完毕的软体放上网有待商榷,该研究人员也深切反省,而此事件也让中研院体认到繁体中文语言词汇很重要,且需要大家一起来做。
立委万美玲询问,中研院研究人员在研究出炉后就放上网给大家测试,廖俊智是否知道?对此廖俊智坦言是事后才知道有对外发布。万美玲直言,中研院发布出去的东西就是代表中研院,管理上要更严谨。
另外,中研院先前表示,将成立「生成式AI风险研究小组」,了解AI对社会的冲击,提供研究人员相关指引,立委张廖万坚质询时询及此事。
廖俊智表示,中研院「生成式AI风险研究小组」正在规划当中,会尽快进行,因为AI带来的冲击是未知数,全世界都在学习当中。
廖俊智也强调,除了风险管控之外,也要整合全国力量,建置台湾的繁体中文词汇资料库,这是刻不容缓也需要大力投入。
立委黄国书质询时则说,目前中研院有6个类似ChatGPT的生成式AI研究计划,经费最高达到1200万,要求廖俊智说明是否使用到中国资料库。
廖俊智回应,目前了解没有使用到中国资料库,他也说,未来会配合国科会计划,开发台湾自己的资料库。
廖俊智强调,在「生成式AI风险研究小组」做出给研究人员的指引之前,相关研究不会暂停,因为仍有资料库以外的层面需要处理,但会提醒研究人员需要多加注意。
爆料信箱:news@nextapple.com
★加入《壹苹》Line,和我们做好友!
★下载《壹苹新闻网》APP
★Facebook 按赞追踪