2016-10-15 Sat: 音声入力を用いた文字起こしでブログ（2）

記録＆ふり返り
transcript
audio

記録＆ふり返り

前回に続き、掲題のトライ。
今回の流れは以下。

1	録音ファイル（26min）をエディット	45分
2	音声入力による文字起こし1周め（再生速度135%）	18分
3	音声入力による文字起こし2周め（再生速度135%）	15分
4	音声ナシで2,3のテキストファイルを統合しベーステキストを作成	7分
5	音声を聞きながら（再生速度80%）テキストを粗く修正	30分
6	音声を聞きながら（再生速度80%）テキストを本格的に修正	50分
7	音声ナシでテキスト整形（1文あたり100字前後で改行）	16分
8	音声を聞きながら（標準速度）仕上げ的修正	31分
9	音声ナシで表記統一（textlint使用）	6分
10	音声ナシで仕上げ（段落分け・タイムスタンプ挿入など）	17分
計	235分

前回は10分程度のファイルで、文字起こし完了までにかかった時間は115分だったが、今回は20分強の内容を4時間弱で起こしたので、それぞれほぼ2倍ずつ。

下記の起こしでも言っているように、自分では「録音の時間が2倍になったからといって作業時間も2倍になるわけではないはず（もっと短時間になるはず）」と言っていたので、思いきり見込みが外れて笑った。

記事の最後でまたSoundCloudで元音声を公開しているが、最近、仕事部屋のすぐそばで特大の工事が行われており、『ポーラX』（映画）のようなインダストリアル・ノイズが鳴り続けていてけっこうシュール、というかうるさい。

内容じたいはいつものような、実があるんだかないんだかわからないようなものだけど、いずれにせよ、こういうものをほぼ4時間かけて作る、というのはなかなかモチベーションが維持されないので、もし次回以降まだ続けるなら、もう少し時間を短く区切ったほうがいいかもしれない。

より直接的な狙いとしては、上の工程における10ステップをもう少し洗練させて、あまり考えなくてもシステマチックに作業できる体制を作ってみたいところ。

文字起こしのプロになりたいわけではないのだが、今までぼんやりやっていたこと、しかもけっこう本格的に消耗していたことを、意識的にシステム化してラクに対応できるようになったら面白いなと思って試みている。

上記工程表のステップ9でtextlintについてメモしたが、その辺の詳しい内容については別途まとめてみたい。（というようなことをいつも言っているが）

transcript

# 0:00

はい。ええとですね、この前、と言っても何日ぐらい前ですかね。ブログで文字起こしを、自動でっていうか、自動じゃないんですけど、音声入力でですね、文字起こしをちょっとでもラクにしようみたいな試みをしてるやつのサンプルというか、実験というか、お試しというか、自分で実験、自分の話で実験しようというやつの第1回というんですかね。やってみたんですけど。

そのときは、ちょっと時間ができたときにやったんですけど、別件がすぐに入っちゃって、話が中途半端なところで止まっちゃったんですけど。

7分ぐらい。7分10秒ぐらいとかの音声ファイルを対象に作ってみたところ、音声入力による文字起こしで、合計115分。けっこうかかってんじゃんと思ったんですけど、今見直すと、実質、本格的に作業してるのは60分ぐらいですかね。

その115分のうちの最初の30分ぐらいは、音声ファイルのエディットで使っているので、まあ通常、文字起こしの音声ファイルっていうのは生データっていうか、外に出ることは普通ないものなので、そこはだいぶ削れるかなとは思うんですけど、とは言ってもまあ、30分が10分になる程度かな。かもしれないんですけどね。

あと、最終的にぼくのは7分ちょいになりましたけど、実際はけっこうだらだら喋っていてですね。ネタは全然カットしてないんですけど、空白部分とかを、なんかあるんですよね。音声エディット用のソフトウェアで、空白を詰める機能みたいのが。たまたま発見したんですけど、普通にありまして。

それでそのぐらいになったので、元々は10分弱ぐらいだった気がするんですけど。なので、そのぐらい、10分ぐらいだらだら喋ったものを、まあ最低限というか、起こすと、115分。まあ120分ぐらいかかったと。なので、12倍？　12倍っていうか、10分の内容が2時間だということですね。

ただ、そのブログにも書いたんですけど、この時間がですね、増えて、たとえば20分のデータ、30分データってなったときに、2時間だったのが4時になり6時間になり、ということになるかと言えば、たぶんそういうことはなくて。初期費用みたいなものがけっこう大きくて、電話の基本料金みたいなものでですね、固定費的なものの時間がたぶん、あるんですよね。

だから、変動費ではない部分がけっこう大きくて、変動する部分だけが2倍3倍になっていくという感じだと思うので。

じゃあ20分だったら、30分だったらっていうのも本当は試したいんですけど、それはそれでけっこうコストがかかるので。いつ試せるのかなーっていう感じですけどね。

ええと、この前ですね、録っていた話の、最後ちょっと中途半端になっちゃったなっていうところがですね……ああ、そうそう、機械がその音声入力とかによってですね、あとぼくがやってるのはただ単に音声入力できるねっていうだけの話っていうよりは、もう機械の中で自動的に、なんと言うんですかね、まあそこが自動なんですけど、機械にmp3とかのファイルを入れて、アップして、そしたら機械がそのまま読みこんでテキスト化してくれると。

そういうこともまあ、ちょっとだけ足を踏み入れてはいるので。勝手にやってくれるっていうか、まあ再帰的に。

その要素がですね、たぶん突き詰めれば、人間がやってることがだいぶ減るよねっていうことで。なんだけど、やっぱり同音異義語とかは、どうしても調整の手間がかかるはずだし、そこは人間のやることとして残るかなあ、みたいな感じで話が終わったんですけど。

# 5:00

ただ実際はですね、その同音異義語にしても、大抵は文脈で判断できるわけなので、機械のほうでもですね、どうなんでしょうかね、機械学習とかってそういうものなのか、どうなのか、よく知らないんですけど、機械学習とかのそれを使えば、あるいは使わなくても、この文脈だったらこれだよっていうのが判断できればいいだけなので。

まあ、同音異義語もそうだし、あとはたとえば、この対談はミュージシャン同士だから、この話題のこの単語はこういうやつに決まってるよ、とか。あるいはスポーツ選手同士だから、この単語はこれだとか。専門領域ごとにですね、ちょっと初期設定を変えておけば、同音異義語で変なのを拾ってくる余地も、まあ減ってくるだろうなとも思うし。

その意味でも、人間のやることはまあ、減る一方なのは間違いないんじゃないかなあ、ということは思ってるんですけどね。

とは言っても、今この段階では、あまりにもちょっと面倒くさいよなあ、と。面倒くさいことが多すぎるんで、そんなすぐは、たとえば文字起こしを専門的にやっている人がすぐに仕事を失うかというと、そういうことはない、むしろ、たぶん過渡期的に、今なんかやけにすごい、やけに文字起こしの需要が多いんじゃないかな、とじつはまあちょっと思っていて。

なんか文字起こしを依頼したい人、自分は起こしたくないけど、これ起こしてほしいなっていう需要がけっこうあるような感じをひしひし感じなくもないんで。

たぶんまあ、それをいずれ機械が引き受ける方向で、誰かが頑張って開発したりするんだろうな、とも思うんですけど、それが形になるまでのその過渡期というか、ところをね、誰が引き受けるのかなって、すごい、まあできる範囲ではぼくも何かしらやりたい気はするんですけどね。

需要はなんか、ある気がするんですよね。文字起こししてほしい、と。そのままどっか公開するわけではないんだけど、あるいはそのままどっか公開するんでもいいんだけど、いろいろ録った音声を、テキストにしたいんだよ、みたいな感じがね。なんでかなあと思わなくもないんですけど。

まあ、発表できる場所が先にできたってことなんですかね。そのブログでも、Webメディアでも。もう発表する場はあると。で、ネタもあると。誰かがどっかのカンファレンスで喋ったとか。でもそれを、テキスト化する人がいない、みたいな感じなのかなと。

ぼくは……ってその文字起こしの話の続きなんですけど、ぼくは初めて文字起こししたってのが2000……あれは2004年かな。

菊地成孔さんというジャズミュージシャンの方が、東京大学でジャズの講義をしていまして。ぼくはちょうどその少し前ぐらいに菊地さんの活動を知ってですね。ちょっと、まあ追っかけというほどでもないんですけど、活動をチェックしていたら、なんかたまたまそれ、もぐれるぞ俺、みたいな。時間あるぞ、という感じで。もぐってたんですよね。その東大の講義に。

で、その講義の様子を文字起こししようかなみたいな感じで。なんとなくそういうふうになってですね、それでやりはじめたのが一番初めで。

それをネットにHTMLとかで、書いて公開するってのをやってたんですよね。

まあ、よくよく考えると、ぼくはプログラミング入門の話とか、最近けっこう好きでしてるんですけど、2013年ぐらいからプログラミング入門したぞとかって言ってたんですけど、HTMLはもう2004年から書いてたなって思い出したので、なんかいろいろ記憶が錯綜している部分もあるんですけど。

# 10:00

いずれにしてもそのときに、文字起こしを、もうそれは完全に趣味でやってて。で、その頃からよく思ってたんですけど、なんで文字起こしをやってるの、好きなの、みたいなことでですね。またちょっと話が飛ぶんですけど。

ぼくは美大に通ってたんですよね。油絵科だったんですけど。その美大がですね。武蔵野美術大学って言って、けっこうなんだろう、もっさりした……もっさり……学生さんは普通に若者なんですけど、油絵科がですねえ、まあ古き良き、まあ武蔵野っていうぐらいなので。そんなにすごいかっこいいとかじゃないんですよね。

タマビとか、東京造形大学っていうのがその頃、まあ東京芸大っていうのが、トップオブトップ、美大の中の美大、むしろ芸大みたいな感じで、そこはもう突き抜けてかっこいいなあ、という感じなんですけど。他の私立大学の美大だと、タマビとかですね、造形大っていうのは、なんかおしゃれだなっていう感じで。

ぼくは75年生まれで、美大に入ったのは95年とか。二浪して入ったので。その頃受験してた人たちは、なんとなく、もしかしたら共感してくれるかもしれないんですけど。今は全然、どうか知らないんですが。武蔵野美大はですね、ちょっとそういう中では、レベルはけっして低くはなかったと思うんですけど、そんなかっこいいような感じではないというか。

おしゃれという感じではないけど、まあ、手堅いよね、みたいな感じなのかなと思ってまして。まあ、地味？　地味っていう感じかな。でもぼくは地味なのがけっこう好きだったので。ムサビに行ければいいなって思っていたんですけど。

で、そのムサビがですね、たしか入ったときの、受験のデッサンのですね、木炭デッサンとかで描くんですけど、課題が自画像だったんですよね。で、ぼくは自画像がすごい得意だったんですよね。もう予備校の頃からもそうだし。それで何とかパスして、なんかべつにもう美大で描きたいこともないけど、ずっと自画像描いてればそのうち芽が出るかな、みたいな感じで、思った記憶をすごく覚えていてですね。実際は自画像どころか、絵をほとんど描かなかったんですけど。

んで、なんでその話なのっていうと、その自画像と文字起こしってけっこう似ているなあという感覚が自分ではあってですね。自画像って、かなりコストがかからないものなんですよね。風景画は外に出なきゃいけないし、人物画はモデルさんが必要だし。まあ写真で描いたりする人もいるとは思いますけど、いわゆる人物画は、まあモデルさん、生きてる人に協力してもらったりするのも面倒だし。

あとなんだろう、静物画。物を描くとかは、物をセットしたままじゃなきゃいけないのもけっこう大変だけど、自画像って自分だけいればいいので。鏡と自分と画材があればいつでも好きなだけ描けるんですよね。

で、文字起こしも、その必要な音声と、書くための機械があればいいだけなので、本当に自分の都合で好きなだけできると、いうところがあってですね。

あとはまあ、音声をテキストにするっていうことは、「別の物」にしているってことなので、どれだけ近づけてもですね、終わりがないんですよね、文字起こしってのはね。音なので、音を文字にしているので、それって結局、たとえば「りんごを絵に描きましょう」って言って、これむちゃくちゃ上手いね、このリンゴの絵、すごい本物みたいだねって言っても、まあ紙なので、紙またはキャンバスと、その画材。絵の具とか。なので、どこまで行ってもリンゴそのものではないわけですよね。

だから、ものすごい写実的にむちゃくちゃ上手く描くっていうことと、ものすごい細かく文字を起こすってのは、すごい似てる。で、どっちもぼくが好きな作業っていうか、ひたすら似せていくというかですね。で、終わりはないという。なぜなら、別物だからっていう。そのあたりがけっこうフィットして。まあ地道にですね、ちまちま絵を描くっていうのと似てる、ところがけっこうフィットして。まあ好きでやってんだなあとか思うんですけどね。

# 15:00

で、その音声入力とか、あるいは自動入力で、勝手にテキスト化してもらう、マシンにしてもらうとかっていうのは、ある意味その、自分で自分の首を締めるというか、率先して息の根を止めにかかってるような感じもなくもないんですけど。

やっぱりでも、それでも残るのは何なのかな？　っていうのを早く知りたいっていうところがけっこうあっでですね。

だからもう完全に、そんなの人間がやらなくていいんだよっていう状況になったらなったで、じゃあその先って何があるのかな？　みたいな。それでも文字起こししたりするのってどういうことなのかなって、やっぱり知りたくなるというか。そういうところにけっこうひかれてるのかもしれないですけどね。

それでまあ、ちなみにっていうか、時々、とくにその自動文字起こしとかを試しはじめてからちょっと思うのは、文字起こしとですね、ぼくは今、坂本龍一さんの音楽全集っていうので、ブックレット、CDブックのブックレットを中心に編集してるんですけど、まあCDの方もちょこちょこいろいろ、やることはやっているんですが、その編集っていうのがですね、結局、さっきも言った、音をテキストにしていくという文字起こしというのが、もうこれはすでに編集でもあるんですよね。

たとえば、括弧笑いって、なんか笑いながら喋ってるなって思ったらとりあえず「（笑）」を入れとくかって感じになるわけですけど。なんか、クスクス笑ってるのか、大受けしているのか、嘲笑っているのかによって、でもそれ、全部「（笑）」でいいのかなあとか。

あるいはまあ、そもそも「（笑）」を入れずに笑ってることがわかるようにしたほうがいいんじゃないかなあ、とか。いろいろ考え始めると、それはすでに編集。「（笑）」をここはとっておこう、という判断はもう編集だし。

あとはなんか叫んでるからビックリマーク入れとくか、というのも編集作業ですよね。だから、一字一句変えずに、「ああ」とか「うーん」とかを全部仮に入れていたとしても尚、なんでそこで句読点入れてるの、とかはもう編集作業なので。

だから、そのままその、「文字起こし」がどこまでマシンに奪われるのかっていうのを考えると、じゃあ「編集」はどこまでマシンに奪われるのかなっていう課題にもなっていくというか。まあ課題っていうか、想像する対象としてですね、あるので。

そうすると、そこまでまた考えると、いろいろさらに面白い。それ、人間がやる必要あるの？　みたいな感じがですね、考えられて面白いなあと。

やっぱりその、たとえば「リンゴ」って誰かが言ったときに、「リンゴ」ってテキストに起こすのは編集なのか？　って言うと、それはただ文字にしただけですよねって、まあぼくだったら思うんですけど。

でも「リンゴ！」っていきなりでかい声で喋ったら、じゃあそこはビックリマークで、「リンゴ」の後に「！」入れてやれっていうのはまあ、そこは編集かもしれない。

でもその違い……違うんだけど、違いは、なんだろう。そんな明白に、階段の段差みたいに違うわけじゃなくて。線が間に引かれてるとかですらなくて、明らかに違うんだけど、その境界線はなんかよくわからない、みたいな。

だから時々、喩えで出すんですけど、「右手と左手の境目はどこなの」っていうと、右手と左手はまあ明らかに違うんだけど、ずっと体を辿っていくと、継ぎ目とかはないわけですよね。

どっかで誰かが、体のちょうど半分の、みぞおちとか、鼻のラインとかで分けましょうって決めれば、じゃあそこから右にしましょうって言えるんだけど、ずっと肌を辿っていくと、まあ右手の中指の先から、左手中指の先まで、地続きになっているわけで。どっちも右手の一部だよっていうことも言えなくもないみたいな。

その境界のなさみたいなものがですね、「文字起こし」と「編集」の間にはある。どこからどこまでなのかなって。

なんかそういう、じゃあどこまでがマシンに任せられるのかな？　とか。どこまでがやってて面白いのかなとかですね。考えているとけっこう、興味が尽きないというかですね。そういうことも考えつつ、まあいろいろ試しているというところですね。

audio

soundcloud.com