Spaces:
Sleeping
Sleeping
A newer version of the Gradio SDK is available:
6.2.0
metadata
title: Itelmen ASR
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit
🎙️ イテリメン語 自動音声認識システム
イテリメン語(絶滅危惧言語)の音声を文字起こしするAIシステムです。
🎯 性能指標
| メトリクス | スコア | 評価 |
|---|---|---|
| CER (文字誤り率) | 33.24% | 良好 🟡 |
| WER (単語誤り率) | 85.12% | 開発中 🟠 |
| 訓練データ | 360サンプル | 9話者 |
| 評価方法 | K-fold交差検証 | 話者独立 |
🔬 技術詳細
アーキテクチャ
- ベースモデル: facebook/mms-1b-all (Massively Multilingual Speech)
- アーキテクチャ: Wav2Vec2 + CTC (Connectionist Temporal Classification)
- パラメータ数: 1B (10億パラメータ)
- 入力: 16kHz モノラル音声
- 出力: IPA(国際音声記号)テキスト
トレーニング
- データ拡張: SpecAugment
- オプティマイザ: AdamW
- 学習率: 3e-4 → 3e-5 (線形減衰)
- エポック数: 80
- バッチサイズ: 16 (勾配累積 2ステップ)
- 正則化: Dropout 0.1, Weight Decay 0.01
評価
- 評価方法: 3-fold 話者独立交差検証
- デコーディング: Greedy decoding
- メトリクス: CER, WER (jiwer)
📖 イテリメン語について
言語情報
- 名称: イテリメン語 (Itelmen / Итэнмэн)
- ISO 639-3: itl
- 地域: ロシア・カムチャツカ半島
- 言語系統: チュクチ・カムチャツカ語族
- 話者数: 約100人以下(2010年国勢調査)
- UNESCO分類: 極めて深刻な危機
言語的特徴
- 音韻: 子音クラスター、口蓋化、咽頭化
- 形態: 抱合語、複雑な動詞活用
- 文字: キリル文字、IPA
- 語順: SOV(主語-目的語-動詞)
保存活動
このプロジェクトは、絶滅危惧言語の保存と記録を支援することを目的としています。 音声認識技術により、言語資料のデジタル化と検索を容易にし、言語復興活動を支援します。
🚀 使い方
基本的な使い方
音声をアップロード
- ファイルをアップロード、または
- マイクで録音
正解テキストを入力(オプション)
- CER/WERを計算したい場合は入力
文字起こし実行
- ボタンをクリックして処理開始
結果を確認
- 文字起こしテキスト
- メトリクス(正解テキストを入力した場合)
入力形式
- 対応フォーマット: WAV, MP3, FLAC, OGG
- 推奨サンプルレート: 16kHz
- 推奨長さ: 1-30秒
出力形式
- テキスト: IPA(国際音声記号)
- 例:
tinuʔn nineʔn nineʔn
📊 性能ベンチマーク
Phase別の進捗
| Phase | アプローチ | CER | 改善幅 |
|---|---|---|---|
| Phase 0 | ゼロショット(MMS-1B) | 100% | baseline |
| Phase 1 | 初期ファインチューニング | 53.06% | -46.94pt |
| Phase 2 | データ拡張 | 50.16% | -2.90pt |
| Phase 3 | ハイパーパラメータ最適化 | 44.07% | -6.09pt |
| Phase 4 | SpecAugment | 38.85% | -5.22pt |
| Phase 5 | K-fold交差検証 | 33.24% | -5.61pt |
総改善幅: -19.82pt(Phase 1比)
エラー分析
主なエラー原因:
- 音韻的混同 (40%): 類似音素の誤認識(k/q, χ/x)
- データ不足 (30%): 特定音素の訓練データ不足
- 話者バリエーション (20%): 話者間の発音差異
- 背景ノイズ (10%): 録音品質のばらつき
🛠️ 開発履歴
Phase 0-6 (2025-12-11 ~ 2025-12-14)
- ✅ データ収集・前処理
- ✅ モデルファインチューニング
- ✅ データ拡張(SpecAugment)
- ✅ K-fold交差検証
- ✅ エラー分析
- ✅ Web公開(Hugging Face Spaces)
今後の計画
- 🔄 外部データ収集(ELDP/ELAR)
- 🔄 XLS-R-300Mへの移行
- 🔄 Beam Search + LMの最適化
📚 参考文献
音声認識
- Facebook MMS: Scaling Speech Technology to 1000+ Languages
- Wav2Vec2: A Framework for Self-Supervised Learning of Speech Representations
- SpecAugment: A Simple Data Augmentation Method for ASR
イテリメン語
- ELAR - Endangered Languages Archive
- Glottolog - Itelmen
- UNESCO Atlas of the World's Languages in Danger
データセット
- 自作データセット(360音声サンプル、9話者)
- 出典: YouTube、ELAR、個人録音
🤝 貢献
このプロジェクトはオープンソースです。改善提案やバグ報告を歓迎します。
できること
- 音声データの提供
- モデルの改善提案
- バグ報告
- ドキュメントの改善
📄 ライセンス
MIT License
モデルはfacebook/mms-1b-allをファインチューニングしたものです。 ベースモデルのライセンスに従ってください。
📧 お問い合わせ
質問やフィードバックは、Hugging Face Discussionsでお願いします。
プロジェクト: イテリメン語ASRシステム 作成: 2025年12月 バージョン: 1.0.0 最終更新: 2025-12-14 CER: 33.24% (K-fold交差検証) ステータス: Phase 0-6 完了 ✅
🎓 引用
このシステムを研究で使用する場合は、以下のように引用してください:
@misc{itelmen-asr-2025,
title={Itelmen Language Automatic Speech Recognition System},
author={Your Name},
year={2025},
howpublished={\url{https://huggingface.co/spaces/sut0/itelmen-asr}},
note={CER: 33.24\%, K-fold cross-validation}
}
作成者: Claude Sonnet 4.5 デプロイ先: Hugging Face Spaces 公開URL: https://huggingface.co/spaces/sut0/itelmen-asr