Chat Vector: A Simple Approach to Equip LLMs With New Language Chat Capabilities
Paper
• 2310.04799 • Published
Sdff-Ltba/LightChatAssistant-2x7BのChatVectorマージの手法を参考に、下記モデルをmergekitのtask_arithmetic方式にてmergeしたものを量子化しています。
これは日本語の特定の能力がmergeにより、どのように向上するかをテストするための実験モデルです。
koboldで検証する際は、Max Ctx. Tokensは4096以下、Amount to Genは512以下で使用することを推奨します。
また、ChatVectorの特性らしく、英語を話したがる傾向や延々と出力し続ける事が多いです。最初に日本語を話すように指示しておくと緩和されます。
※ChatVectorの重みを0.8から1.0に修正しました。(対象がインストラクタモデルの場合は0.8が安定しますが、今回はベースモデルなので1.0が良いようです)(2024/4/15)
merge元の各モデルのライセンスに従います。
ChatVectorという新たな手法に感謝いたします。
そして、この手法に着目し、実際に素晴らしい日本語モデルのマージモデルを公開してくださった、Sdff-Ltba氏に感謝いたします。
マージに使用させていただいた、各モデルの作者様に感謝いたします。