これはCognitiveですか?

Video Indexerを使って議事録自動化へチャレンジ!

f:id:camel-balon:20171003194801p:plain

こんにちは。ほぼメガネです。

今年5月に登場した、Video Indexer(ビデオ インデクサー)。

皆さん試していらっしゃいますか?


azure.microsoft.com


個人的には名前がすごく強そうで好きです。

『出でよ! 全てを見通す者! ビィィィぃぃデェェェぇぇオォォォぉぉ、インッッデクサァァァぁぁぁ!』

おっと。

ごめんなさい。厨二病の禁断症状がでました。

今回は、このVideo Indexerを会社で議事録につかって見ようとチャレンジした内容です。

尚、Video Indexerの使い方については、以下のサイト様が詳しいです。


beachside.hatenablog.com


きっかけは情報共有したい

私の会社では、勉強会が活発に行われています。

週2~3回はどこかしらで技術共有会だったりが行われています。

ただこれだけ数が多いと、どうしても参加できない人がでてきます。

仕方ないですね。皆さん忙しい合間を縫ってやっていますから。

すると、こんな要望がでてきました。

「どんな内容かトピックだけでもいいから知りたいんだけど、議事録とかできない?」

え、あ、うーん。こまった。

勉強会で議事録は勘弁したいところ。

でも、共有自体は勉強会のミッションの一つでもあるため、やぶさかではない・・・。

主催するメンバー達と話し合って、まずは内容をチャットに書き込んでみました。

社外の勉強会なんかだと、ツイートが頻繁にされたりします。

そのため、ハッシュタグだけ追えば、何となく話していることがわかるんですよね。

その効果を狙ってみたのです。

結果は・・・う~ん

そもそも人数が少ないので、書き込む人が絞られて、1人か2人になってしまいました。

また、その人が話に夢中になる(勉強会では議論することも多い。)と、全く書き込めなくなります。

はて。目論見は見事に外れました。

Video Indexerに立った白羽の矢

ということで、再度メンバーが集まり、次の策を話し合いました。

いろいろな案が出てきました。

その中の一つが。

iOSのボイスメモで録音した音声をVideo Indexerに解析させる

というものでした。

Video Indexerでは、音声のテキスト化を行ってくれます。

それに、話し手を認識して、会話と会話の間に区切りをつけてくれます。 (これがなかなか大事。)

しかも今なら無料です。

これはどうなるか結果はさておき、試すしかない!

それが皆の総意でした。

まずは音声の収録だ。

そして数日後。

早速、VideoIndexer議事録計画(勝手に命名)を試す時が来ました。

それはマーケティングについての勉強会。

メインのスピーカーは2人。

それ以外に8人ほどの参加者が集まりました。

場所は会議室で、相向かいで5人ずつ座る形です。

自分の、もうそろそろ引退予定のiPhone6のボイスメモを起動。

会議室の中央に座るスピーカーの前に置きます。

さぁ、勉強会の始まりです。

〜〜1時間後〜〜

充電が切れることなく、録音任務の完遂を果たしたiPhone6から音声ファイルを抜き取ります。

この時気づくのです。

iOSのボイスメモがm4aファイルだということに。

音声ファイルといえば、wavかmp3しか想像できないほど音楽に疎い私。

m4aなぞ、未知との遭遇です。ETです。

これVideo Indexerに取り込めるかしら?

一抹の不安。


(ちなみに、m4aファイルについては以下のサイトを見ると詳しいです。)

www.macxdvd.com


音声ファイルをVideo Indexerへイン!

いよいよ音声ファイルをVideo Indexer に取り込みます。

下のサイトにアクセスし、ログインをします。


www.videoindexer.ai


ログインをしたらUploadを選択。

更に、次の画面のchooseのリンクから、取込みをするファイルを選択します。

f:id:camel-balon:20170923221027p:plain

f:id:camel-balon:20170923221417p:plain

m4aファイルは果たして、取り込めるんだ・・・ろう・・か・・・っと。

・・・はい!取り込めないー!選択できないー!

いやいやいやいや。

99.9%予想はしていました。いました。

想定の範囲内です。ええ。

もう全然動揺なんかしてないですよ。ほ、ほんっtuにっ・

だってiPhoneですもの。りんごスターですもの。

そう!m4aがだめなら、WAVファイルに変えればいいじゃない!

そうじゃない!

ということで、以下のサイトでサクッとm4aからWAVファイルに変換です。


convertio.co


再度、チャレンジ。

今度は選択できました!

すると、Video Source Languageと、Privacyを選択する項目がでてきます。

今回は「Japanese」「Private」を選択します。

そして、Uploadボタンをポチっと押下。

f:id:camel-balon:20170923223134p:plain

すると、リングが現れて取り込みが開始されます。

f:id:camel-balon:20170923223156p:plain

ここはしばし待ちましょう。

Let’s Indexing !

アップロードが終わると、先程の画面に戻ります。

さぁ、ここで既にIndexingが始まっています。

ファイルのカードにカーソルを合わせてみましょう。

今、どれくらいIndexingがされているかが表示されます。

f:id:camel-balon:20170923223658p:plain

ここでもしばらく待ちます。

このIndexing。終わるとVideo Indexerが勝手にサインインしているメールアドレスへ通知を送ります。

タイトルは「Your video is ready!」

送信元は「videoindexer-noreply@mail.microsoftazure.com sendgrid.me」です。(sendgrid使ってるー。)

Indexingは長時間かかるので、何も設定しなくても通知してくれるのはありがたいですね。

ちなみに、今回57分1秒の音声ファイルでしたが、Indexingにかかった時間は約8分でした。

ファイルにカーソルを合わせると、Playと出てくるのでクリックしましょう。

f:id:camel-balon:20170923225454p:plain

すると、再生画面がでてきます。

確認したいのは音声テキストなので、右側のタブから「Transcript」を選択します。

すると、動画内で話されている会話が文字として現れてきます。

さらに、文字をクリックすると、動画がその箇所から再生されます。

すんごいですよね。これ。

f:id:camel-balon:20170923231305p:plain

音声の解析の性能はなかなか。

では、ちょっと。音声とそこからテキスト化されたものを比べてみましょう。


音声:「なぜなら興味関心がないからいうところがあって、なんかそれをなんとなくやんなきゃなぁってやってると結構できないです。」

テキスト:「なぜなら興味関心がないかというところがあってなんかそれをなんとなくやんなきゃなぁってやってると結婚できないです」



音声:「それは二十代女性だったらどうなんすかね。 フェイスブック よりもインスタなんすかね。ツイッターすかね。

テキスト:「それは二十代女性だったのにませんですfacebook よりもイーストなんすかツイッター


ちょっと精度が高めのもの(かつ書けるもの)をピックアップしてみました。

結構、変換できていますよね。

フェイスブックなんかは、ピタッと変換できています。

何もせずに、日本語でここまでの精度ってすごいと思います。

これ自前でやるとなると、泣いちゃうくらいに大変ですから。

Video indexerで議事録自動化はできたのか?

さぁ、話を元に戻しましょう。

今回、議事録自動化はできた?できなかった?

結果は・・・できなかった。

精度が高いものはあったものの、やはり手直しをしなくてはいけないものも数多くありました。

これを1からチェックして行くのは時間がかかる…という事で断念しました。

しかし、失敗は成功の糧。

今後の課題について、考察してみました。

これから潰さなくてはいけない課題はなんでしょうか。

とにもかくにも音質が一番大事。

今回の失敗の原因の大部分が録音した音声ファイルの音質の悪さにあります。

先程、Video Indexerの精度が高いものをピックアップしましたが、それを話している人は、iPhoneの目の前にいるスピーカーでした。

声も明瞭で、ボリュームも申し分ありません。

逆に精度が悪い会話の発言者は、iPhoneの位置から遠い、または声が小さいという方でした。

こちらは人間では聞き取れますが、音としては明瞭ではなく、くぐもった声となっていました。

やはり、iPhoneのマイクでは限界があるようです。

いや、半ば予想していたことではありますが。

理想でいえば、ピンマイクを参加者が全員付ける。

その音を一手に集める機材を用意して録音 する。

なんでしょうけどね。

そうなるともはやラジオ番組取れちゃうレベル。

朝まで生テレビだって、できそうです。

また再チャレンジ

ともあれ、今回の課題は、Video Indexerへ取り込む前段階のお話でした。

まずは録音の音質を安く上げる方法を練って、再トライしたいと思います。

最後に

Video Indexerはいろいろと楽しいことができる、可能性のあるサービスです。

みなさんも是非、Video Indexer使ってみましょう!


azure.microsoft.com