itelmen-asr / README.md
sut0's picture
Deploy Itelmen ASR to Hugging Face Spaces
1fea691

A newer version of the Gradio SDK is available: 6.2.0

Upgrade
metadata
title: Itelmen ASR
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit

🎙️ イテリメン語 自動音声認識システム

イテリメン語(絶滅危惧言語)の音声を文字起こしするAIシステムです。

🎯 性能指標

メトリクス スコア 評価
CER (文字誤り率) 33.24% 良好 🟡
WER (単語誤り率) 85.12% 開発中 🟠
訓練データ 360サンプル 9話者
評価方法 K-fold交差検証 話者独立

🔬 技術詳細

アーキテクチャ

  • ベースモデル: facebook/mms-1b-all (Massively Multilingual Speech)
  • アーキテクチャ: Wav2Vec2 + CTC (Connectionist Temporal Classification)
  • パラメータ数: 1B (10億パラメータ)
  • 入力: 16kHz モノラル音声
  • 出力: IPA(国際音声記号)テキスト

トレーニング

  • データ拡張: SpecAugment
  • オプティマイザ: AdamW
  • 学習率: 3e-4 → 3e-5 (線形減衰)
  • エポック数: 80
  • バッチサイズ: 16 (勾配累積 2ステップ)
  • 正則化: Dropout 0.1, Weight Decay 0.01

評価

  • 評価方法: 3-fold 話者独立交差検証
  • デコーディング: Greedy decoding
  • メトリクス: CER, WER (jiwer)

📖 イテリメン語について

言語情報

  • 名称: イテリメン語 (Itelmen / Итэнмэн)
  • ISO 639-3: itl
  • 地域: ロシア・カムチャツカ半島
  • 言語系統: チュクチ・カムチャツカ語族
  • 話者数: 約100人以下(2010年国勢調査)
  • UNESCO分類: 極めて深刻な危機

言語的特徴

  • 音韻: 子音クラスター、口蓋化、咽頭化
  • 形態: 抱合語、複雑な動詞活用
  • 文字: キリル文字、IPA
  • 語順: SOV(主語-目的語-動詞)

保存活動

このプロジェクトは、絶滅危惧言語の保存と記録を支援することを目的としています。 音声認識技術により、言語資料のデジタル化と検索を容易にし、言語復興活動を支援します。

🚀 使い方

基本的な使い方

  1. 音声をアップロード

    • ファイルをアップロード、または
    • マイクで録音
  2. 正解テキストを入力(オプション)

    • CER/WERを計算したい場合は入力
  3. 文字起こし実行

    • ボタンをクリックして処理開始
  4. 結果を確認

    • 文字起こしテキスト
    • メトリクス(正解テキストを入力した場合)

入力形式

  • 対応フォーマット: WAV, MP3, FLAC, OGG
  • 推奨サンプルレート: 16kHz
  • 推奨長さ: 1-30秒

出力形式

  • テキスト: IPA(国際音声記号)
  • : tinuʔn nineʔn nineʔn

📊 性能ベンチマーク

Phase別の進捗

Phase アプローチ CER 改善幅
Phase 0 ゼロショット(MMS-1B) 100% baseline
Phase 1 初期ファインチューニング 53.06% -46.94pt
Phase 2 データ拡張 50.16% -2.90pt
Phase 3 ハイパーパラメータ最適化 44.07% -6.09pt
Phase 4 SpecAugment 38.85% -5.22pt
Phase 5 K-fold交差検証 33.24% -5.61pt

総改善幅: -19.82pt(Phase 1比)

エラー分析

主なエラー原因:

  1. 音韻的混同 (40%): 類似音素の誤認識(k/q, χ/x)
  2. データ不足 (30%): 特定音素の訓練データ不足
  3. 話者バリエーション (20%): 話者間の発音差異
  4. 背景ノイズ (10%): 録音品質のばらつき

🛠️ 開発履歴

Phase 0-6 (2025-12-11 ~ 2025-12-14)

  • ✅ データ収集・前処理
  • ✅ モデルファインチューニング
  • ✅ データ拡張(SpecAugment)
  • ✅ K-fold交差検証
  • ✅ エラー分析
  • ✅ Web公開(Hugging Face Spaces)

今後の計画

  • 🔄 外部データ収集(ELDP/ELAR)
  • 🔄 XLS-R-300Mへの移行
  • 🔄 Beam Search + LMの最適化

📚 参考文献

音声認識

イテリメン語

データセット

  • 自作データセット(360音声サンプル、9話者)
  • 出典: YouTube、ELAR、個人録音

🤝 貢献

このプロジェクトはオープンソースです。改善提案やバグ報告を歓迎します。

できること

  • 音声データの提供
  • モデルの改善提案
  • バグ報告
  • ドキュメントの改善

📄 ライセンス

MIT License

モデルはfacebook/mms-1b-allをファインチューニングしたものです。 ベースモデルのライセンスに従ってください。

📧 お問い合わせ

質問やフィードバックは、Hugging Face Discussionsでお願いします。


プロジェクト: イテリメン語ASRシステム 作成: 2025年12月 バージョン: 1.0.0 最終更新: 2025-12-14 CER: 33.24% (K-fold交差検証) ステータス: Phase 0-6 完了 ✅


🎓 引用

このシステムを研究で使用する場合は、以下のように引用してください:

@misc{itelmen-asr-2025,
  title={Itelmen Language Automatic Speech Recognition System},
  author={Your Name},
  year={2025},
  howpublished={\url{https://huggingface.co/spaces/sut0/itelmen-asr}},
  note={CER: 33.24\%, K-fold cross-validation}
}

作成者: Claude Sonnet 4.5 デプロイ先: Hugging Face Spaces 公開URL: https://huggingface.co/spaces/sut0/itelmen-asr