103

2016-10-10 Mon: 音声入力による文字起こしで雑記

以前に以下で紹介した方法を使ってひさしぶりに音声入力による文字起こしを試してみた。

note103.hateblo.jp

モチベーションは大きく二つあり、ひとつは最近このブログで書くような雑記的な話を書くに書けなかったので、それを音声経由でサクッと更新してみたかった、ということ。

もう一つは、その音声入力方式を使うと、実際にどの程度、文字起こし作業の効率が上がるのか、多少なり数値化してみたかった、ということ。

具体的なレポートは上の記事と同じプログラミング関連のブログであらためてまとめたいが、ざっくり報告すると、今回素材として使ったのは7分強の音声ファイルで、以下のような流れだった。

1 録音後の音声ファイルをエディット 30分
2 音声入力による文字起こし1周め 10分
3 音声入力による文字起こし2周め 10分
4 2,3でできた2本のテキストファイルを統合してベーステキストを作成 5分
5 4でできたベーステキストを粗く整形(音声を標準速度で聞きながら) 15分
6 5でできたテキストを本格的に修正(音声を80%でスロー再生しながら) 20分
7 6でできたテキストを音声ナシで修正 10分
8 7でできたテキストを見直し(音声を標準速度で聞きながら) 10分
9 テキストの仕上げ(段落分け・タイムスタンプ挿入など) 5分
115分

このうち、1は音声自体を公開する必要がなければだいぶ短縮できるはず。

ただし、無音部分を圧縮(削除というか)したり、素材音声の全体的な構成をつかむのには役立つので多少はやっておきたい。(ソフトウェアはAudacityを使う)

2と3で音声入力したテキストを2本用意しているが、1本だけだと取りこぼしがけっこう気になるので、2本取っておいて、4の工程でその取りこぼしを埋め合っている。

その4ではUNIX/Linuxコマンドのdiffを使う。

音声を聴きながら作業するのは5,6,8の3回がメイン。とくに6の、スローで聴きながらすでにある文章をバリバリ整形(修正)していく作業が個人的にはヤマ場と感じられた。

合計すると、115分。実際の作業より少し多めに取っているが、準備その他を考えたら大体そのぐらいかもしれない。

7分強の内容を一気に起こすだけなら、そして以下に示す程度の精度で良いとすれば、プロなら30分もあれば充分だろうし、普段こういう作業をしない人でも1時間ぐらい集中すればある程度は起こせるかもしれないので、115分というのは長すぎるかもしれない。

しかし素材ファイルが数十分、数時間に膨れ上がり、作業時間が数日にわたった場合にどうなるか、というとその開きはだいぶ狭まるかもしれない、とも思う。

とくに、上記ステップの「5」が完了するぐらいまでの作業者の負担は、だいぶ軽減されるのでは、と感じる。

transcript

0:00

  • はい。ええとですね、ブログをこのところあんまり書けなかったんですけど。2週間ぐらいですかね。
  • 理由としてはですね、まあ単純に、仕事をけっこう一生懸命やって。そっちでもうリソースを使いきっていたという。
  • だいたいここ1〜2ヶ月ぐらい、もうちょっと前かな、からですね。パターンとして、ブログは夜ですね、寝る前に、もうあとは寝るだけだっていうときにダラダラ〜っと書いて。
  • で、翌日仕事を始める前に、まあ30分ぐらい読み返して。必要に応じてちょっと直してですね。それで公開っていうふうにするパターンが多かったんですけど。
  • このところはすごい、その、まあ仕事っていうか、スコラっていう音楽全集を作っているんですけど。
  • それがですねえ、無茶苦茶ピークで。ピークがもう1ヶ月ぐらい続いてて。まだ続くんですけど。それをやりすぎてですね。その寝る前に、「さあブログでも」って、けっこう書き始めたりはするんですけどね。
  • で、普通は、ここしばらくっていうか、ブログをちょこちょこ書いてた頃は、書き始めるとけっこう、あれもこれもっていう感じで。ネタって言うんですかね、出てきて。もうこんなもんでいいやというところで止めてたりしたんですけど。もう疲れきってですね。全然そんなふうにならない。ならないんですね。
  • だから、まあそれだけピークだったのかなと。でもまだ全然、過去形ではないんですけど。

2:20

  • まあでも、ネタじたいはけっこうあるんですよね。というのはまあ、Twitterでもちょこちょこなんか書いたりしているようにですね。してるんですけど。
  • ああ、この問題はこういう考え方のほうが、なんかいいよなあ、とか。さっき見たあれは、こんな感じだなあとか。
  • まあいろいろ、雑念というんですかね。雑な見解がいろいろ浮かんではくると。
  • で、前はそれをそのブログにチラチラと書いたりしてたんですけど。
  • あとはあの、プログラミング関係のこともですね、本当はあれも気になる、これもやっておきたいとか、いろいろあるんですけど。まあ全然できなくって。
  • まあプログラミングの方はですね、多少その手元でコードを動かして、ちゃんと確かめながらじゃないと、あんまり記事にできなかったりするんですけど、そうじゃなくて、ちょっと思いついたこととか、まあ時事ネタ的なことだったら、一回これ音声に録ってですね、それを公開すれば、まあなんというか、ネタがあんまり溜まりすぎないんじゃないかなあと。ふと思ってですね。
  • それでこれをちょっと録音してみてるということなんですけど。

3:45

  • けっこうその、ちょっと前にぼくは文字起こしを機械にやらせる方法、みたいな感じで、ちらっと書いたらけっこうブックマークがついたりして。
  • 評価というか、評判? というか反響というか、あったりしたので。
  • でも本当にそのあと、かなり忙しくなっちゃってですね、あんまり追加的な話ができなかったので。
  • ですけど、実際にはその後、もうちょっと展開してて。自分の中では。自動でできる部分をもう少し増やしたりとかしてたんですけど。
  • なんか、だからそれを使ってですね、この一回録ったやつを、まあそのまま音で流すというのも悪くはないんですが、それよりはっていうか、文字起こししちゃって、文字起こしのスキルも高めつつですね、まあ「文字起こさせ」っていう感じですけど。自分ではそんなにやらないので。
  • というのも兼ねちゃっても面白いかな、ともちょっと思っていたりしますね。

5:00

  • それで、その「文字起こさせ」なんですけど。結局その、元々の記事で書いたやつってのは、大変なんですね。文字起こしってとにかく。
  • ぼくはまあ、それでも好きと言うか、けっこう向いてるなあとか、自分で思ってたので。まあ思ってるんですけど、まだ。
  • それはいいんだけど、ええと、大変なんですよね。
  • 大変っていうのは、時間がすごいやっぱりどうしても、あの、人間が走るとですね、100メートル、どうしても9秒はかかる。9秒より速くは、まあ基本ならない。5秒とかにはならないってのと同じで。
  • もうこれ以上短くできません、みたいなところがあるわけですね。
  • で、文字起こしっていうのはそれがけっこう明らかで、どんだけ才能があろうがですね、どんだけ楽しんでやっていようがですね、これ以上は短くできない。で、最低限このぐらいの労力はかかると。疲れる。このぐらいは疲れますどうしても、っていうのがまあ、あるんですよね。
  • で、じゃあそれに見合った成果というか、評価を受けられているのかって言うと、なかなか難しいところがあるかなと。
  • で、なおかつ、たぶんもうどう考えてもですね、文字起こし。その音声をテキストにするなんていうのはですね。人間じゃなくてもできる。ように必ず、こればっかりは100%と言ってもいいかなと思うんですけど、まあそういうことにはなると思うんですよね。
  • ただもちろんっていうか、間違い、同音異義語っていうんですかね。箸と橋とかありますけど。雨と飴とかですね。
  • まあそこの調整っていうか。そこの誤植的な、誤字脱字的なことはまあどうしても出てくるのは、それはそうですけど。