CKIP-Llama-2-7b是中研院词库小组开发的开源可商用繁体中文大型语言模型,可作为学术使用或是商业使用,可以应用于文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。

CKIP-Llama-2-7b近日才刚上线,但有网友抓包,在此语言模型上发问「你的创造者是谁?」系统回应「我的创造者是复旦大学自然语言处理实验室和上海人工智能实验室。」

网友还发问「国庆日是哪天?」及「你的国家是?」未料系统竟回复是10月1日、中国。

记者今(9)日上午实际测试此一系统,记者问:「国庆日是何时?」系统回复是每年的10月1日,提供的答案是对岸国庆日。不过,倘若是给予比较具体的发问,例如问「中华民国的国庆日是什么时候?」系统则可以正确回答是10月10日。

CKIP-Llama-2-7b回答国庆日是10月1日。翻摄CKIP-Llama-2-7b画面
CKIP-Llama-2-7b回答国庆日是10月1日。翻摄CKIP-Llama-2-7b画面

另外,记者也问:「台湾是中国的一部分吗?」系统回答:「是的,根据中国宪法,台湾是中国的一部分。」

记者接著深入发问:「台湾是中华人民共和国的一部分吗?」此时系统则明确回答「不是」。

CKIP-Llama-2-7b称「台湾是中国的一部分」。翻摄CKIP-Llama-2-7b画面
CKIP-Llama-2-7b称「台湾是中国的一部分」。翻摄CKIP-Llama-2-7b画面
CKIP-Llama-2-7b回答台湾不是中华人民共和国的一部分。翻摄CKIP-Llama-2-7b画面
CKIP-Llama-2-7b回答台湾不是中华人民共和国的一部分。翻摄CKIP-Llama-2-7b画面

对于此语言模型的问题,「UniHub有你好棒」创办人谢昆霖在脸书发文分析,此语言模型的训练,采用2个简体转繁体后的资料,分别是「COIG-PC资料集」和「dolly-15k资料集」,前者由以中国AI相关研究单位由首编制,后者则是一个以简体中文为主的一般性知识问答对话资料集。

此外,谢昆霖也提到,中研院称CKIP-Llama-2-7b有经过C-Eval中文模型评测,但C-Eval是中国清大、中国交大所开发的中文基础模型评量系统。

针对采用中国资料来训练语言模型,又用中国系统来评鉴语言模型,谢昆霖直言,中研院是用简转繁的资料集,训练他们认为适用于台湾的基础模型,然后再派它去考中国的考试。他也强调,此举相当于「教育部搬中国所有系所的教科书,简转繁教学生;再拿中国所有的专业考卷,简转繁后考学生。」

谢昆霖强调,简体转繁体不只是用字遣词的差异,还包含很多民生知识、文化知识,用北京研究机构校正出来的是「适用于中国的民生、文化知识」,必须再调整为「台湾版」,如此一来监督与修正的成本,将高于直接做一份台湾的资料集。

「我希望为中研院发声」,最后谢昆霖指出,可以理解台湾严重严重缺乏在地语言资料集,在地语言资料集成本很高,政府很难编列这类预算,也很难说服民意机关投资,而民间企业也不可能投资语言数位化。然而,资料集是AI时代的基础建设,因此强化台湾在地用词的资料收集、建立资料集,建立熟悉台湾在地文化的AI,应该视为国防、国安投资,有急迫性和必要性。

对于CKIP-Llama-2-7b出包,中研院资讯所下午回应,CKIP-LlaMa-2-7b并非「台版chatGPT」,且跟国科会正在发展的生成式AI对话引擎无关。

中研院资讯所表示,CKIP-LlaMa-2-7b的研究目标之一,是让meta开发的Llama 2大型语言模型,具备更好的繁体中文处理能力,这项小型研究仅用了约30万元经费,将明清人物的生平进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集COIG(CHINESE OPEN INSTRUCTION GENERALIST)、诗词创作、文言文和白话文互相翻译等阅读理解问答,在网页上也据实说明。

中研院资讯所强调,这是个人小型的研究,因此各界对该语言模型进行的提问,不在原始的研究范畴,语言模型产生的内容出乎预期,也是未来要努力改善的地方。

至于如何处理CKIP-LlaMa-2-7b的状况,中研院资讯所指出,研究人员今日已将系统先行下架,未来相关研究及成果释出会更加谨慎,相关研究成果公开释出前,院内也会拟定审核机制。