--- title: Itelmen ASR emoji: 🎙️ colorFrom: blue colorTo: purple sdk: gradio sdk_version: 4.0.0 app_file: app.py pinned: false license: mit --- # 🎙️ イテリメン語 自動音声認識システム イテリメン語(絶滅危惧言語)の音声を文字起こしするAIシステムです。 ## 🎯 性能指標 | メトリクス | スコア | 評価 | |----------|--------|------| | **CER (文字誤り率)** | 33.24% | 良好 🟡 | | **WER (単語誤り率)** | 85.12% | 開発中 🟠 | | **訓練データ** | 360サンプル | 9話者 | | **評価方法** | K-fold交差検証 | 話者独立 | ## 🔬 技術詳細 ### アーキテクチャ - **ベースモデル**: facebook/mms-1b-all (Massively Multilingual Speech) - **アーキテクチャ**: Wav2Vec2 + CTC (Connectionist Temporal Classification) - **パラメータ数**: 1B (10億パラメータ) - **入力**: 16kHz モノラル音声 - **出力**: IPA(国際音声記号)テキスト ### トレーニング - **データ拡張**: SpecAugment - **オプティマイザ**: AdamW - **学習率**: 3e-4 → 3e-5 (線形減衰) - **エポック数**: 80 - **バッチサイズ**: 16 (勾配累積 2ステップ) - **正則化**: Dropout 0.1, Weight Decay 0.01 ### 評価 - **評価方法**: 3-fold 話者独立交差検証 - **デコーディング**: Greedy decoding - **メトリクス**: CER, WER (jiwer) ## 📖 イテリメン語について ### 言語情報 - **名称**: イテリメン語 (Itelmen / Итэнмэн) - **ISO 639-3**: itl - **地域**: ロシア・カムチャツカ半島 - **言語系統**: チュクチ・カムチャツカ語族 - **話者数**: 約100人以下(2010年国勢調査) - **UNESCO分類**: 極めて深刻な危機 ### 言語的特徴 - **音韻**: 子音クラスター、口蓋化、咽頭化 - **形態**: 抱合語、複雑な動詞活用 - **文字**: キリル文字、IPA - **語順**: SOV(主語-目的語-動詞) ### 保存活動 このプロジェクトは、絶滅危惧言語の保存と記録を支援することを目的としています。 音声認識技術により、言語資料のデジタル化と検索を容易にし、言語復興活動を支援します。 ## 🚀 使い方 ### 基本的な使い方 1. **音声をアップロード** - ファイルをアップロード、または - マイクで録音 2. **正解テキストを入力(オプション)** - CER/WERを計算したい場合は入力 3. **文字起こし実行** - ボタンをクリックして処理開始 4. **結果を確認** - 文字起こしテキスト - メトリクス(正解テキストを入力した場合) ### 入力形式 - **対応フォーマット**: WAV, MP3, FLAC, OGG - **推奨サンプルレート**: 16kHz - **推奨長さ**: 1-30秒 ### 出力形式 - **テキスト**: IPA(国際音声記号) - **例**: `tinuʔn nineʔn nineʔn` ## 📊 性能ベンチマーク ### Phase別の進捗 | Phase | アプローチ | CER | 改善幅 | |-------|----------|-----|--------| | Phase 0 | ゼロショット(MMS-1B) | 100% | baseline | | Phase 1 | 初期ファインチューニング | 53.06% | -46.94pt | | Phase 2 | データ拡張 | 50.16% | -2.90pt | | Phase 3 | ハイパーパラメータ最適化 | 44.07% | -6.09pt | | Phase 4 | SpecAugment | 38.85% | -5.22pt | | Phase 5 | K-fold交差検証 | **33.24%** | -5.61pt | **総改善幅**: -19.82pt(Phase 1比) ### エラー分析 主なエラー原因: 1. **音韻的混同** (40%): 類似音素の誤認識(k/q, χ/x) 2. **データ不足** (30%): 特定音素の訓練データ不足 3. **話者バリエーション** (20%): 話者間の発音差異 4. **背景ノイズ** (10%): 録音品質のばらつき ## 🛠️ 開発履歴 ### Phase 0-6 (2025-12-11 ~ 2025-12-14) - ✅ データ収集・前処理 - ✅ モデルファインチューニング - ✅ データ拡張(SpecAugment) - ✅ K-fold交差検証 - ✅ エラー分析 - ✅ Web公開(Hugging Face Spaces) ### 今後の計画 - 🔄 外部データ収集(ELDP/ELAR) - 🔄 XLS-R-300Mへの移行 - 🔄 Beam Search + LMの最適化 ## 📚 参考文献 ### 音声認識 - [Facebook MMS: Scaling Speech Technology to 1000+ Languages](https://ai.meta.com/blog/multilingual-model-speech-recognition/) - [Wav2Vec2: A Framework for Self-Supervised Learning of Speech Representations](https://arxiv.org/abs/2006.11477) - [SpecAugment: A Simple Data Augmentation Method for ASR](https://arxiv.org/abs/1904.08779) ### イテリメン語 - [ELAR - Endangered Languages Archive](https://elar.soas.ac.uk/) - [Glottolog - Itelmen](https://glottolog.org/resource/languoid/id/itel1242) - [UNESCO Atlas of the World's Languages in Danger](http://www.unesco.org/languages-atlas/) ### データセット - 自作データセット(360音声サンプル、9話者) - 出典: YouTube、ELAR、個人録音 ## 🤝 貢献 このプロジェクトはオープンソースです。改善提案やバグ報告を歓迎します。 ### できること - 音声データの提供 - モデルの改善提案 - バグ報告 - ドキュメントの改善 ## 📄 ライセンス MIT License モデルはfacebook/mms-1b-allをファインチューニングしたものです。 ベースモデルのライセンスに従ってください。 ## 📧 お問い合わせ 質問やフィードバックは、Hugging Face Discussionsでお願いします。 --- **プロジェクト**: イテリメン語ASRシステム **作成**: 2025年12月 **バージョン**: 1.0.0 **最終更新**: 2025-12-14 **CER**: 33.24% (K-fold交差検証) **ステータス**: Phase 0-6 完了 ✅ --- ## 🎓 引用 このシステムを研究で使用する場合は、以下のように引用してください: ```bibtex @misc{itelmen-asr-2025, title={Itelmen Language Automatic Speech Recognition System}, author={Your Name}, year={2025}, howpublished={\url{https://huggingface.co/spaces/sut0/itelmen-asr}}, note={CER: 33.24\%, K-fold cross-validation} } ``` --- **作成者**: Claude Sonnet 4.5 **デプロイ先**: Hugging Face Spaces **公開URL**: https://huggingface.co/spaces/sut0/itelmen-asr