Spaces:

sut0
/

itelmen-asr

Sleeping

App Files Files Community

itelmen-asr / README.md

sut0

Deploy Itelmen ASR to Hugging Face Spaces

1fea691 25 days ago

preview code

raw

history blame contribute delete

6.23 kB

A newer version of the Gradio SDK is available: 6.2.0

Upgrade

metadata

title: Itelmen ASR
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit

🎙️ イテリメン語自動音声認識システム

イテリメン語（絶滅危惧言語）の音声を文字起こしするAIシステムです。

🎯 性能指標

メトリクス	スコア	評価
CER (文字誤り率)	33.24%	良好 🟡
WER (単語誤り率)	85.12%	開発中 🟠
訓練データ	360サンプル	9話者
評価方法	K-fold交差検証	話者独立

🔬 技術詳細

アーキテクチャ

ベースモデル: facebook/mms-1b-all (Massively Multilingual Speech)
アーキテクチャ: Wav2Vec2 + CTC (Connectionist Temporal Classification)
パラメータ数: 1B (10億パラメータ)
入力: 16kHz モノラル音声
出力: IPA（国際音声記号）テキスト

トレーニング

データ拡張: SpecAugment
オプティマイザ: AdamW
学習率: 3e-4 → 3e-5 (線形減衰)
エポック数: 80
バッチサイズ: 16 (勾配累積 2ステップ)
正則化: Dropout 0.1, Weight Decay 0.01

評価

評価方法: 3-fold 話者独立交差検証
デコーディング: Greedy decoding
メトリクス: CER, WER (jiwer)

📖 イテリメン語について

言語情報

名称: イテリメン語 (Itelmen / Итэнмэн)
ISO 639-3: itl
地域: ロシア・カムチャツカ半島
言語系統: チュクチ・カムチャツカ語族
話者数: 約100人以下（2010年国勢調査）
UNESCO分類: 極めて深刻な危機

言語的特徴

音韻: 子音クラスター、口蓋化、咽頭化
形態: 抱合語、複雑な動詞活用
文字: キリル文字、IPA
語順: SOV（主語-目的語-動詞）

保存活動

このプロジェクトは、絶滅危惧言語の保存と記録を支援することを目的としています。音声認識技術により、言語資料のデジタル化と検索を容易にし、言語復興活動を支援します。

🚀 使い方

基本的な使い方

音声をアップロード
- ファイルをアップロード、または
- マイクで録音
正解テキストを入力（オプション）
- CER/WERを計算したい場合は入力
文字起こし実行
- ボタンをクリックして処理開始
結果を確認
- 文字起こしテキスト
- メトリクス（正解テキストを入力した場合）

入力形式

対応フォーマット: WAV, MP3, FLAC, OGG
推奨サンプルレート: 16kHz
推奨長さ: 1-30秒

出力形式

テキスト: IPA（国際音声記号）
例: tinuʔn nineʔn nineʔn

📊 性能ベンチマーク

Phase別の進捗

Phase	アプローチ	CER	改善幅
Phase 0	ゼロショット（MMS-1B）	100%	baseline
Phase 1	初期ファインチューニング	53.06%	-46.94pt
Phase 2	データ拡張	50.16%	-2.90pt
Phase 3	ハイパーパラメータ最適化	44.07%	-6.09pt
Phase 4	SpecAugment	38.85%	-5.22pt
Phase 5	K-fold交差検証	33.24%	-5.61pt

総改善幅: -19.82pt（Phase 1比）

エラー分析

主なエラー原因:

音韻的混同 (40%): 類似音素の誤認識（k/q, χ/x）
データ不足 (30%): 特定音素の訓練データ不足
話者バリエーション (20%): 話者間の発音差異
背景ノイズ (10%): 録音品質のばらつき

🛠️ 開発履歴

Phase 0-6 (2025-12-11 ~ 2025-12-14)

✅ データ収集・前処理
✅ モデルファインチューニング
✅ データ拡張（SpecAugment）
✅ K-fold交差検証
✅ エラー分析
✅ Web公開（Hugging Face Spaces）

今後の計画

🔄 外部データ収集（ELDP/ELAR）
🔄 XLS-R-300Mへの移行
🔄 Beam Search + LMの最適化

📚 参考文献

音声認識

イテリメン語

データセット

自作データセット（360音声サンプル、9話者）
出典: YouTube、ELAR、個人録音

🤝 貢献

このプロジェクトはオープンソースです。改善提案やバグ報告を歓迎します。

できること

音声データの提供
モデルの改善提案
バグ報告
ドキュメントの改善

📄 ライセンス

MIT License

モデルはfacebook/mms-1b-allをファインチューニングしたものです。ベースモデルのライセンスに従ってください。

📧 お問い合わせ

質問やフィードバックは、Hugging Face Discussionsでお願いします。

プロジェクト: イテリメン語ASRシステム作成: 2025年12月 バージョン: 1.0.0 最終更新: 2025-12-14 CER: 33.24% (K-fold交差検証) ステータス: Phase 0-6 完了 ✅

🎓 引用

このシステムを研究で使用する場合は、以下のように引用してください:

@misc{itelmen-asr-2025,
  title={Itelmen Language Automatic Speech Recognition System},
  author={Your Name},
  year={2025},
  howpublished={\url{https://huggingface.co/spaces/sut0/itelmen-asr}},
  note={CER: 33.24\%, K-fold cross-validation}
}

作成者: Claude Sonnet 4.5 デプロイ先: Hugging Face Spaces 公開URL: https://huggingface.co/spaces/sut0/itelmen-asr

🎙️ イテリメン語 自動音声認識システム