音声データ文字起こしの自動化
実際に使うことになるかまだ未定なんだけど、会話分析とかすることになったら文字起こしが必要だなーと思っていろいろ調べてみた。
まず音声の入力にめっちゃつまづいた。
持ち運び用のWin10のPCはステレオミキサーがデフォルトで入ってたから比較的楽に入力させることができたんだけど、このPC、いかんせんスペックがゴミ。
普段は研究室のWin8のPCにリモート接続して使ってる。
しかしWin8にはステレオミキサーがない…!
ということで以下の記事を参考にいろいろ導入を図った。
のだが。
なんとなーくPCでの再生音は認識されてるっぽいが全然音声入力として扱われず…。
さらに調べると同じような状況の方発見。
スピーカーから音を出すことはできなくなりそうだけど、もともとスピーカーなんて使わないし、一つのソフトをインストールするだけで簡単に音声入力ができた!
さあ準備は万端!
Speechnotesってサイトが使えそうじゃない?と早速テストデータを再生!
…ん?
確かにいい感じに読み取ってくれるけど、なんかやたらとぎれとぎれじゃない?
元のデータの音質が良くないのかしら…?
と思って、雑音とかが結構少ないかなと思える、YouTuberの動画で試してみるも、明らかに入力される量が少ない。
えー…。
結局、こちらのnoteで書かれてるように、自分で読み上げた方が、早く正確にできるのかもしれない…という結論になった。
マイク持ってないんだけどね。
はー。