無料の「音声入力」はテープ起こしに使えるか?

Pocket

書籍ライターの仕事のなかでテープ起こしがもっともきらいで、もっともつらい作業です。

テープ起こしとは、インタビュー音源を聞きながら文字化していく作業のこと。インタビュイーの話す速度のままキーボードを高速で完ぺきにタイピングできればいいけれど、実際には何度も音源を巻き戻したり、再生速度をゆっくりしたりして作業するため、通常の録音時間の2倍や3倍はかかります。

このテープ起こし作業の何がつらいかって、生産性が極めて低いということ。苦労してテープ起こしを仕上げても、それで原稿が完成するわけではなく。そのテープ起こしを読み込みながらゼロから原稿を書いていくことになります。

テープ起こしは原稿を執筆するための準備でしかなく、しかも準備でありながら時間がかかりすぎるうえ、その苦労によってゼロベースの原稿が0.1ミリでも進むのかというとそうではないという、むなしさがあります(笑)

このテープ起こしの虚無感をどうにか緩和できないか。

あるときから「おこしやす」というフリーソフトを活用し始め、キーボード入力の効率がかなり良くなりました。

だからといって、音源を聞き返しながらタイピングするという苦悩、虚無作業がなくなるわけでなく。

願わくは、インタビュー音源を自動で文字に起こしてくれる文明の利器はないものかと、たまに思い出してはネット検索をかけて探したりしてきました。

***

できればフリーソフトで実現したいのです。

音源を文字化する有料ソフトはあるみたいだけど、精度はまだまだ発展途上というのが現実のようで。技術が確立してくるまでのあいだは、無料の領域でどこまでできるのかというのを模索したいなと思うわけです。

調べると、YouTubeの自動字幕起こしというのがあって、その機能をテープ起こしに代用できる可能性があるかも(?)みたいな他サイトの情報がありました。(コレ→音声認識で楽にテープ起こしをする方法とは(2))※YouTubeの自動字幕起こしのヘルプページ このページを見ても正直、使い方はさっぱりわかりません。

いろいろてこずりながらYouTubeにサンプル音源(実際には動画コンテンツ)をアップロードし、試行錯誤のすえ、自動字幕化に成功しました。

しかし――。

使い物になりませんでした。自動で起こされた字幕の日本語はめちゃくちゃで、いちからテープ起こしをしたほうがよほど早いといえるほどのレベル。

***

YouTubeはあきらめ、次にチャレンジしたのはGoogleドキュメントの音声入力。

Googleドキュメントで文章を書く際、マイクのアイコンを押すと音声入力機能がONになり、PCの場合はマイク、スマホの場合は電話の聞き取り口に向かって話すことで音声入力で記入できます。

「超」シリーズで有名な野口悠紀雄先生が著書『話すだけで書ける究極の文章法 人工知能が助けてくれる』でも紹介されている方法で、これは脈ありかも(?)と期待に胸が高まりました。

方法はこうです。

インタビュー音源を聞きながら、そこで語られている内容を自分の言葉で正確に話す。
その自分の声をGoogleドキュメントの音声入力機能に認識させて文字化する。

インタビュー音源を聞きながら実際に話す手間はあるけれど、タイピングの苦労を考えるとだいぶ楽なのではと考えました。

結論。

音声入力の聞き取り能力は予想以上のレベルです。

何がすごいって、単語レベルではなく、文章として日本語を認識して文字化している点。いったん間違って言葉をテキスト化しても、前後の文脈を捉えて修正しながら文字化していっています。

さすがGoogle……。

ただし、テープ起こしとして代用するには無理があるというのが結論です。

理由は、音声入力機能が1分程度でなぜかOFFになってしまうから。

そのつど、音声入力のマイクボタンを押し直して機能をONにしなければなりません。というか、音声入力の表示としてはONになっているのに、1分ほど経過すると認識しなくなる。

理由を調べていると野口先生も同じようなことを書かれていたので、Googleドキュメントの音声入力機能も発展途上だとあきらめました。

***

テープ起こしはつらい作業には変わりはないけれど、自分で取り組む意義がひとつあります。

それは、インタビュイーが力を込めて話をしている内容を再確認できること。

実際のインタビュー音源を聞き返すことで、取材相手がいちばん伝えたいメッセージを冷静に客観視できるのです。

その意味で、テープ起こしはインタビュイーに対して誠実で実のある原稿を書く通過儀礼なのかもしれません。

とはいえ、技術の進歩を待ち望んでいることに変わりはありませんが(笑)

***

※2017年5月12日追記

この記事を読んで「スピーチノート」というスマホアプリを知り、さっそく使ってみました。

これは素晴らしい!

Googleの音声入力機能を使っているので高い精度で文字変換してくれるし、〝少し間をおいて考えたりしながら〟長めの文章を打ち込みたいぼくにとって最も便利だと感じたのは、しゃべらず黙っていてもマイクがオフにならないこと。

前述のとおり、Googleの音声入力はしばらくするとマイクが勝手にオフになってしまうんですね。正直、この〝勝手にオフ〟がGoogle音声入力のすべてを台無しにしてしまっている。

スピーチノートはそのGoogleの欠点を補完してくれている。現時点では、理想に近い音声入力のスマホアプリかもしれません。(スピーチノートのPC版があればなあ)

You may also like

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です