我们非常高兴地向社区致敬,感谢他们在 Kaggle 平台 Gemma 开放模型微调挑战赛中做出的杰出贡献!开发者们解决了 AI 领域中的一个关键挑战,即如何将最先进的大语言模型 (LLM) 应用于各种不同的文化及语言环境。

由于训练和评估数据集所采用的语言是主流语言,因此模型往往偏好于高资源语言。这可能会导致性能差异,即最新的 AI 进展可能无法应用在资源较少的语言环境中。此外,这些模型不仅可能缺乏对语言的理解,而且还可能缺乏与文化相关的背景信息,导致它们无法为相关社区提供帮助。

社区在语言、歌词、古籍等翻译方面所展现的创造性解决方案,给我们留下了非常深刻的印象。

致敬创新者

开发者们提交了数百份竞赛作品,展示了如何将 LLM 的变革性力量带给世界各地的语言。这些项目利用了自定义数据集和高效后训练方法,使 Gemma 能够适应指令遵循、翻译和特定领域。我们鼓励您探索 Kaggle 上的 Notebook,了解这些技术的实际应用效果,赋能您自己的多语言项目。

Gemma 2 Swahili

获得第一名的项目对 Gemma 进行了优化,旨在使其理解斯瓦希里语。这为 2 亿多该语言的使用者带来了全新的可能性。该项目使用参数高效微调技术对 2B、9B 和 27B 参数的 Gemma 模型进行了微调。

他们微调的一个着重点是 Gemma "在指令-响应格式方面展现的出众灵活性",这使得模型能够在最少的结构约束下解析指令,并在不同输入格式中生成连贯的回复。

Kyara: 适用于 LLM 微调的检索增强

Knowledge Yielding Adaptive Retrieval Augmentation (Kyara) 探索了 LLM 微调的检索过程,演示了如何增强 Gemma 在繁体中文环境中生成更准确回复的能力。

该项目侧重于使用基于图形的知识检索方法来构建优质问答 (Q&A) 数据集,其灵感源自于人类通过关联概念进行学习的方式。

ArGemma: 针对阿拉伯语微调 Gemma

该项目通过微调 Gemma,使其能够胜任处理阿拉伯语的各类任务,包括翻译、内容摘要、故事创作以及对话生成。

鉴于阿拉伯语是一种历史悠久的语言,该项目还旨在提升对文学和艺术作品中出现古典阿拉伯语的理解,通过采用多种技术搭建起现代标准阿拉伯语和古典阿拉伯语之间的沟通桥梁。

适用于意大利语及其他语言的 Gemma 后训练

该项目侧重于使用经济高效的后训练方法来提高 Gemma 对意大利语的理解能力,以解决 "幻觉" 和 "灾难性遗忘" 等难题。

该项目在一个混合数据集上对 2B 和 9B 两个不同参数的模型进行了微调,其中包括使用 LLM-as-a-judge 方法创建的全新指令微调数据集,以确保翻译质量。

古汉语专家: Gemma 2>ChatGPT

该项目使用 Gemma 开发了一款 "古汉语专家",旨在理解古汉语文本并生成翻译,突出了 LLM 在历史文化保护方面的潜力。

开发者根据综合数据集对 Gemma 进行了微调,以增强语言理解能力,后训练过程中还使用了改善指令遵循的技术。

Lyric-Gemma 2: 同一首歌,不同的故事

该项目解决了 AI 歌词翻译所面临的特有且微妙的挑战,增强了 Gemma 对文化引用和象征意义的敏感度,同时也可兼顾原曲的韵律节奏。

多语言数据集包含带有注释的歌词翻译,蕴含了关键的文化背景、情感基调和节奏特征,使模型能够掌握和再现歌词内容的艺术神韵。

针对日语汉字假名微调 Gemma 2 JPN

该项目优化了 Gemma 2 JPN 以生成读假名 (Yomigana)/振假名 (Furigana),这些假名可为日语文本阅读提供辅助,帮助语言学习者或遇到复杂日语汉字的读者。

虽然目前存在其他基于规则的工具,但 LLM 可以更好地识别罕见的日语汉字,并 "解释句子的上下文,从而准确消除多音日语汉字的歧义"。项目 Notebook 还指出,由于模型仅针对单一翻译任务进行训练,其对话能力有所减弱。

数学思维: 针对印地语微调 Gemma 2

该项目增强了 Gemma 对于印地语数字词汇的数学意义和逻辑理解能力,这类数字词汇因复杂的构词形式给模型带来了挑战,例如用 "दो सौ" 表示 "200" 或用 "ढाई" 表示 "2.5"。

该项目使用经过精心设计和人类专家验证的数据集 (包含多种问题类型) 对 9B 模型进行了微调,为 AI 驱动的教育工具、自动化辅导和本地化内容解锁了丰富应用场景。

Gemma-2-9b-kk-it: 学习翻译哈萨克语

该项目针对哈萨克语翻译任务微调了 Gemma 2 9B 模型。哈萨克语采用三种不同的文字 (西里尔文、拉丁文和阿拉伯文),其中西里尔文版本需要的 Token 数量大约是英语的两倍,这给资源有限的训练带来了挑战。

该模型的性能基准数据优于 27B Gemma 变体和 Google 翻译,展现了如何使用经济高效的方法针对小众语言调整 LLM。

THEODEN: The Old English Gemma

古英语是有记载的最早的英语语言形式,而该项目赋予了 Gemma 理解和翻译古英语的能力,创建了一个基于 "古英语-现代英语" 语言对的自定义数据集,旨在帮助应对处理历史语言和公开数据有限的难题。

该 Notebook 还额外包含一个基于开源冰岛语文本转语音模型的音频生成组件,能够模拟还原出近似的语音效果。

另外 10 个优秀项目

Gemma 3 展望

全球共有超过 7,000 种语言,AI 在弥合沟通鸿沟方面拥有无限潜力。Gemma 开放模型系列为开发者提供了强大的基础,让他们能够将高性能模型应用于资源稀缺的语言。

Kaggle 社区在推动 Gemma 2 应用于多种语言方面所展示的创新和奉献精神令人深受鼓舞。在持续构建一个 AI 赋能全球沟通未来的过程中,Gemma 3 同样令人期待,它经过预训练,可为 140 多种语言提供支持,这为后续构建打下了坚实基础。

我们鼓励开发者探索 Gemma 的各种可能性,并分享自己的数据集和模型,继续共同推进多语言 AI 的发展。

相关推荐

精选内容

关注【谷歌云服务】
微信公众号
微信咨询:
周一至周五 早上 9 点到晚上 6 点
联系我们