国庆日是10/1？中研院AI出错　专家：用对岸资料库

台南連續地震　氣象署：未來3天有規模4.5以上餘震

2023/10/09 16:50 壹蘋新聞網 / 良博綜合報導

【记者王良博／台北报导】中央研究院日前推出繁体中文的语言模型CKIP-Llama-2-7b，此语言模型类似Chat-GPT，采用问答方式，可用于文案生成、语言翻译等。不过，专家抓包此语言模型采用中国资料「简转繁」，导致诸多用语、问答内容都以中国文化回答，但资料是AI时代的基础建设，应建立熟悉台湾在地文化的AI。记者实测也发现，该语言模型回答国庆日是10/1，还称台湾是中国的一部分。

对此，中研院下午回应，已将系统先行下架，此为个人小型研究，希望将明清人物的生平进行自动化分析，建构自动化的历史人物、事件等事理图谱，民众的提问超出原始研究范畴，导致语言模型产生的内容出乎预期，未来研究及成果释出会更加谨慎。

中研院推出的语言模型，被专家抓包采用中国资料「简转繁」。取自中研院脸书

CKIP-Llama-2-7b是中研院词库小组开发的开源可商用繁体中文大型语言模型，可作为学术使用或是商业使用，可以应用于文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。

CKIP-Llama-2-7b近日才刚上线，但有网友抓包，在此语言模型上发问「你的创造者是谁？」系统回应「我的创造者是复旦大学自然语言处理实验室和上海人工智能实验室。」

网友还发问「国庆日是哪天？」及「你的国家是？」未料系统竟回复是10月1日、中国。

记者今（9）日上午实际测试此一系统，记者问：「国庆日是何时？」系统回复是每年的10月1日，提供的答案是对岸国庆日。不过，倘若是给予比较具体的发问，例如问「中华民国的国庆日是什么时候？」系统则可以正确回答是10月10日。

CKIP-Llama-2-7b回答国庆日是10月1日。翻摄CKIP-Llama-2-7b画面

另外，记者也问：「台湾是中国的一部分吗？」系统回答：「是的，根据中国宪法，台湾是中国的一部分。」

记者接著深入发问：「台湾是中华人民共和国的一部分吗？」此时系统则明确回答「不是」。

CKIP-Llama-2-7b称「台湾是中国的一部分」。翻摄CKIP-Llama-2-7b画面

CKIP-Llama-2-7b回答台湾不是中华人民共和国的一部分。翻摄CKIP-Llama-2-7b画面

对于此语言模型的问题，「UniHub有你好棒」创办人谢昆霖在脸书发文分析，此语言模型的训练，采用2个简体转繁体后的资料，分别是「COIG-PC资料集」和「dolly-15k资料集」，前者由以中国AI相关研究单位由首编制，后者则是一个以简体中文为主的一般性知识问答对话资料集。

此外，谢昆霖也提到，中研院称CKIP-Llama-2-7b有经过C-Eval中文模型评测，但C-Eval是中国清大、中国交大所开发的中文基础模型评量系统。

针对采用中国资料来训练语言模型，又用中国系统来评鉴语言模型，谢昆霖直言，中研院是用简转繁的资料集，训练他们认为适用于台湾的基础模型，然后再派它去考中国的考试。他也强调，此举相当于「教育部搬中国所有系所的教科书，简转繁教学生；再拿中国所有的专业考卷，简转繁后考学生。」

谢昆霖强调，简体转繁体不只是用字遣词的差异，还包含很多民生知识、文化知识，用北京研究机构校正出来的是「适用于中国的民生、文化知识」，必须再调整为「台湾版」，如此一来监督与修正的成本，将高于直接做一份台湾的资料集。

「我希望为中研院发声」，最后谢昆霖指出，可以理解台湾严重严重缺乏在地语言资料集，在地语言资料集成本很高，政府很难编列这类预算，也很难说服民意机关投资，而民间企业也不可能投资语言数位化。然而，资料集是AI时代的基础建设，因此强化台湾在地用词的资料收集、建立资料集，建立熟悉台湾在地文化的AI，应该视为国防、国安投资，有急迫性和必要性。

对于CKIP-Llama-2-7b出包，中研院资讯所下午回应，CKIP-LlaMa-2-7b并非「台版chatGPT」，且跟国科会正在发展的生成式AI对话引擎无关。

中研院资讯所表示，CKIP-LlaMa-2-7b的研究目标之一，是让meta开发的Llama 2大型语言模型，具备更好的繁体中文处理能力，这项小型研究仅用了约30万元经费，将明清人物的生平进行自动化分析，建构自动化的历史人物、事件、时间、地点等事理图谱，因此训练资料除了繁体中文的维基百科，另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集COIG（CHINESE OPEN INSTRUCTION GENERALIST）、诗词创作、文言文和白话文互相翻译等阅读理解问答，在网页上也据实说明。

中研院资讯所强调，这是个人小型的研究，因此各界对该语言模型进行的提问，不在原始的研究范畴，语言模型产生的内容出乎预期，也是未来要努力改善的地方。

至于如何处理CKIP-LlaMa-2-7b的状况，中研院资讯所指出，研究人员今日已将系统先行下架，未来相关研究及成果释出会更加谨慎，相关研究成果公开释出前，院内也会拟定审核机制。

中研院中央研究院语言模型 AI

投资人关注俄乌战争局势　美国股市近乎平盘开出

【国际中心／综合外电】投资人静待美国商业活动数据，并关注乌克兰与俄罗斯之间的地缘政治紧张局势，华尔街股市主要指数今天近乎平盘开出。

财经股市

2024/11/22 23:15

全台人口密度最高　永和乐华夜市店面成新北店王

【地产中心／综合报导】内需回温，店面交易也逐渐热络，根据实价登录统计，2024年新北市店面成交单价最高者位于永和区的乐华夜市商圈一楼店面，6月成交总价4714万元、单价162万元，共29坪，目前由老牌锅贴业者经营中。

地产王

2024/11/22 23:10

10年屋龄购屋热区　中南部800万元有谱

【地产中心／综合报导】新屋房价高，10年内屋龄住宅则兼具规划与总价优势，房仲业者根据实价登录资料统计，近一年七都屋龄10年以内且总价千万元以下的电梯大楼十大热销行政区，北部以淡水CP值最高，而台中的梧栖、清水与高雄楠梓、凤山、桥头、三民和仁武等区段，都有机会以总价800万元购屋。

地产王

2024/11/22 23:02

一周天气预报 - 阴晴不定伴随偶有阵雨

【天气小帮手】本周台湾各地天气变化多端，北部地区如台北市多云到阴天，气温介于14至26度间，进入周末偶有短暂阵雨

生活

2024/11/22 23:00

MAMA｜ROSÉ合体火星人布鲁诺嗨唱《APT.》！BTS当兵中横扫大奖5冠王

【记者陈薇安／综合报导】韩国「MAMA大奖」（MAMA Awards，前身为亚洲音乐大奖Mnet Asian Music Awards）今年连办3天，继昨天在美国颁奖后，今、明2天在日本大阪京瓷巨蛋登场。天团「防弹少年团」（BTS）虽然正在当兵，但人气不减，智旻拿下四个大奖之一的「粉丝选择年度奖」。女子天团「BLACKPINK」主唱ROSÉ与火星人布鲁诺（Bruno Mars）合作的夯曲《APT.》红遍全球，2人除了一起现身领奖，更首度现场演唱该曲，嗨翻全场。

娱乐时尚

2024/11/22 22:48

台南连续地震　气象署：未来3天有规模4.5以上余震

台南今天晚间发生多起地震，中央气象署说，主因是菲律宾海板块跟欧亚板块挤压的能量往西，在脆弱地方造成地震活动，未来3天不排除有规模4.5以上余震。

生活

2024/11/22 22:37

2024/11/22 22:20