これはCognitiveですか?

第11回 Cogbot勉強会! ~ 行こうぜ、Cogbot の向うへ2018 に参加したよ。

f:id:camel-balon:20180125201951p:plain

こんにちは。ほぼメガネです。

皆さん、今週の大雪はどうでしたか?無事に帰れましたか?

駅が入場規制になるなど、なかなかの混乱だったようですね。

そんな東京大雪祭りの次の日に行われたのが、恒例のCogbot勉強会、

「第11回 Cogbot勉強会! ~ 行こうぜ、Cogbot の向うへ2018 」です!

cogbot.connpass.com

雪だからそんなに人が来ないかなーなんて思っていたら、ふたを開けたら大盛況でした。ありがたや。

あ、受付と司会をやったのは私です。はい。

今回はその内容の感想を簡単に書いていきます。

2018年から始める Cognitive Services (とその短い歴史)

www.slideshare.net

大森さんのセッション。大森さんはCognitiveとBotのサービスを最新トレンドを抑えつつ話してくれているので、非常に参考になります。

私は、はじめてCognitive Servicesを触る人には、まず大森さんの資料を見るようにお勧めしています。

Azure Bot Serviceで始めるチャットボット開発入門

www.slideshare.net

横浜さんのセッションはチャットボットです。

Azure Bot Service と QnAメーカーを使って、問いに対して回答を返してくれるチャットボットを使っています。

LUISも交えていて非常に楽しいセッションでした。

QnAメーカーはサイトにFAQのページがあれば、そのサイトのURLからインポートもできるので、もし既にサイトを持っているところは、 移植がスムーズかもしれません。

azure.microsoft.com

Azure Machine Learning Workbench の使い方

www.slideshare.net

瀬尾さんはAzure Machine Learning Workbenchです。何かと触りたくてもよくわからないMLWorkbenchについて、詳しく説明していました。

MNISTは知っていたけど、Fashion-MNISTは知らなかったので、勉強になりました。

github.com

LT2名の方

すいません、、、クローズドな準備にバタバタしていて最後まで聞けず・・・。

申し訳ありません。。。

最後に

勉強会で皆さんにつぶやいてもらったツイートは以下にまとまっています。 是非こちらも見てください。

togetter.com

次回Cogbotは2月中旬を予定しています!

今回も楽しかったです!

Video Indexerを使って議事録自動化へチャレンジ!

f:id:camel-balon:20171003194801p:plain

こんにちは。ほぼメガネです。

今年5月に登場した、Video Indexer(ビデオ インデクサー)。

皆さん試していらっしゃいますか?


azure.microsoft.com


個人的には名前がすごく強そうで好きです。

『出でよ! 全てを見通す者! ビィィィぃぃデェェェぇぇオォォォぉぉ、インッッデクサァァァぁぁぁ!』

おっと。

ごめんなさい。厨二病の禁断症状がでました。

今回は、このVideo Indexerを会社で議事録につかって見ようとチャレンジした内容です。

尚、Video Indexerの使い方については、以下のサイト様が詳しいです。


beachside.hatenablog.com


きっかけは情報共有したい

私の会社では、勉強会が活発に行われています。

週2~3回はどこかしらで技術共有会だったりが行われています。

ただこれだけ数が多いと、どうしても参加できない人がでてきます。

仕方ないですね。皆さん忙しい合間を縫ってやっていますから。

すると、こんな要望がでてきました。

「どんな内容かトピックだけでもいいから知りたいんだけど、議事録とかできない?」

え、あ、うーん。こまった。

勉強会で議事録は勘弁したいところ。

でも、共有自体は勉強会のミッションの一つでもあるため、やぶさかではない・・・。

主催するメンバー達と話し合って、まずは内容をチャットに書き込んでみました。

社外の勉強会なんかだと、ツイートが頻繁にされたりします。

そのため、ハッシュタグだけ追えば、何となく話していることがわかるんですよね。

その効果を狙ってみたのです。

結果は・・・う~ん

そもそも人数が少ないので、書き込む人が絞られて、1人か2人になってしまいました。

また、その人が話に夢中になる(勉強会では議論することも多い。)と、全く書き込めなくなります。

はて。目論見は見事に外れました。

Video Indexerに立った白羽の矢

ということで、再度メンバーが集まり、次の策を話し合いました。

いろいろな案が出てきました。

その中の一つが。

iOSのボイスメモで録音した音声をVideo Indexerに解析させる

というものでした。

Video Indexerでは、音声のテキスト化を行ってくれます。

それに、話し手を認識して、会話と会話の間に区切りをつけてくれます。 (これがなかなか大事。)

しかも今なら無料です。

これはどうなるか結果はさておき、試すしかない!

それが皆の総意でした。

まずは音声の収録だ。

そして数日後。

早速、VideoIndexer議事録計画(勝手に命名)を試す時が来ました。

それはマーケティングについての勉強会。

メインのスピーカーは2人。

それ以外に8人ほどの参加者が集まりました。

場所は会議室で、相向かいで5人ずつ座る形です。

自分の、もうそろそろ引退予定のiPhone6のボイスメモを起動。

会議室の中央に座るスピーカーの前に置きます。

さぁ、勉強会の始まりです。

〜〜1時間後〜〜

充電が切れることなく、録音任務の完遂を果たしたiPhone6から音声ファイルを抜き取ります。

この時気づくのです。

iOSのボイスメモがm4aファイルだということに。

音声ファイルといえば、wavかmp3しか想像できないほど音楽に疎い私。

m4aなぞ、未知との遭遇です。ETです。

これVideo Indexerに取り込めるかしら?

一抹の不安。


(ちなみに、m4aファイルについては以下のサイトを見ると詳しいです。)

www.macxdvd.com


音声ファイルをVideo Indexerへイン!

いよいよ音声ファイルをVideo Indexer に取り込みます。

下のサイトにアクセスし、ログインをします。


www.videoindexer.ai


ログインをしたらUploadを選択。

更に、次の画面のchooseのリンクから、取込みをするファイルを選択します。

f:id:camel-balon:20170923221027p:plain

f:id:camel-balon:20170923221417p:plain

m4aファイルは果たして、取り込めるんだ・・・ろう・・か・・・っと。

・・・はい!取り込めないー!選択できないー!

いやいやいやいや。

99.9%予想はしていました。いました。

想定の範囲内です。ええ。

もう全然動揺なんかしてないですよ。ほ、ほんっtuにっ・

だってiPhoneですもの。りんごスターですもの。

そう!m4aがだめなら、WAVファイルに変えればいいじゃない!

そうじゃない!

ということで、以下のサイトでサクッとm4aからWAVファイルに変換です。


convertio.co


再度、チャレンジ。

今度は選択できました!

すると、Video Source Languageと、Privacyを選択する項目がでてきます。

今回は「Japanese」「Private」を選択します。

そして、Uploadボタンをポチっと押下。

f:id:camel-balon:20170923223134p:plain

すると、リングが現れて取り込みが開始されます。

f:id:camel-balon:20170923223156p:plain

ここはしばし待ちましょう。

Let’s Indexing !

アップロードが終わると、先程の画面に戻ります。

さぁ、ここで既にIndexingが始まっています。

ファイルのカードにカーソルを合わせてみましょう。

今、どれくらいIndexingがされているかが表示されます。

f:id:camel-balon:20170923223658p:plain

ここでもしばらく待ちます。

このIndexing。終わるとVideo Indexerが勝手にサインインしているメールアドレスへ通知を送ります。

タイトルは「Your video is ready!」

送信元は「videoindexer-noreply@mail.microsoftazure.com sendgrid.me」です。(sendgrid使ってるー。)

Indexingは長時間かかるので、何も設定しなくても通知してくれるのはありがたいですね。

ちなみに、今回57分1秒の音声ファイルでしたが、Indexingにかかった時間は約8分でした。

ファイルにカーソルを合わせると、Playと出てくるのでクリックしましょう。

f:id:camel-balon:20170923225454p:plain

すると、再生画面がでてきます。

確認したいのは音声テキストなので、右側のタブから「Transcript」を選択します。

すると、動画内で話されている会話が文字として現れてきます。

さらに、文字をクリックすると、動画がその箇所から再生されます。

すんごいですよね。これ。

f:id:camel-balon:20170923231305p:plain

音声の解析の性能はなかなか。

では、ちょっと。音声とそこからテキスト化されたものを比べてみましょう。


音声:「なぜなら興味関心がないからいうところがあって、なんかそれをなんとなくやんなきゃなぁってやってると結構できないです。」

テキスト:「なぜなら興味関心がないかというところがあってなんかそれをなんとなくやんなきゃなぁってやってると結婚できないです」



音声:「それは二十代女性だったらどうなんすかね。 フェイスブック よりもインスタなんすかね。ツイッターすかね。

テキスト:「それは二十代女性だったのにませんですfacebook よりもイーストなんすかツイッター


ちょっと精度が高めのもの(かつ書けるもの)をピックアップしてみました。

結構、変換できていますよね。

フェイスブックなんかは、ピタッと変換できています。

何もせずに、日本語でここまでの精度ってすごいと思います。

これ自前でやるとなると、泣いちゃうくらいに大変ですから。

Video indexerで議事録自動化はできたのか?

さぁ、話を元に戻しましょう。

今回、議事録自動化はできた?できなかった?

結果は・・・できなかった。

精度が高いものはあったものの、やはり手直しをしなくてはいけないものも数多くありました。

これを1からチェックして行くのは時間がかかる…という事で断念しました。

しかし、失敗は成功の糧。

今後の課題について、考察してみました。

これから潰さなくてはいけない課題はなんでしょうか。

とにもかくにも音質が一番大事。

今回の失敗の原因の大部分が録音した音声ファイルの音質の悪さにあります。

先程、Video Indexerの精度が高いものをピックアップしましたが、それを話している人は、iPhoneの目の前にいるスピーカーでした。

声も明瞭で、ボリュームも申し分ありません。

逆に精度が悪い会話の発言者は、iPhoneの位置から遠い、または声が小さいという方でした。

こちらは人間では聞き取れますが、音としては明瞭ではなく、くぐもった声となっていました。

やはり、iPhoneのマイクでは限界があるようです。

いや、半ば予想していたことではありますが。

理想でいえば、ピンマイクを参加者が全員付ける。

その音を一手に集める機材を用意して録音 する。

なんでしょうけどね。

そうなるともはやラジオ番組取れちゃうレベル。

朝まで生テレビだって、できそうです。

また再チャレンジ

ともあれ、今回の課題は、Video Indexerへ取り込む前段階のお話でした。

まずは録音の音質を安く上げる方法を練って、再トライしたいと思います。

最後に

Video Indexerはいろいろと楽しいことができる、可能性のあるサービスです。

みなさんも是非、Video Indexer使ってみましょう!


azure.microsoft.com


画像DE路線当てBOTを作ろう!駅すぱあとWebサービスとコラボしたCogbotハンズオンのお手伝いに行きました。

こんにちは。

JTと言われると、タバコしかイメージが湧きません。

けれど、タバコを吸ったことがない、ほぼメガネです。

JTってある界隈の人に聞いてみると、

東海道線に決まってるでしょ!」

と言われるとか、なんとか。

駅ナンバリングって難しい。。。

駅ナンバリング - Wikipedia

駅すぱあと®︎とコラボレーション!

なぜそんなことを書くかというと!

先日、駅すぱあとと、Cogbotコミュニティがコラボして、電車がテーマのハンズオンを行ったからです。

その名も「Cogbot 勉強会!増刊号 ~ 駅すぱあと x Cognitive Services ハンズオン」。

私はそのスタッフの一人として、参加させていただきました!

cogbot.connpass.com

ハンズオンの資料を使えば、誰でもBotが作れます。

ぜひお試しください!

尚、駅すぱあとWebサービスのキー申請は多少時間がかかります。

あらかじめ登録しておいて、キーを貰ってから始めることをお勧めします!

qiita.com

qiita.com

qiita.com

ekiworld.net

ハンズオンで最も多かった罠。Cutom Vision APIのMake Default

さて、このハンズオン。

参加者の皆さんが1番ハマったところがあります。

それは、Custom Vision APIBotの連携部分。

BotからCustom Vision APIを叩いて、電車判定をやるぞ!

おや?写真を送っても答えが返ってこない。

おや?キーとかは間違ってないぞ?

??????

というもの。

半分くらいの人はハマってたんじゃないでしょうか。

これ、原因はCustom Vision APIのIterationが、Default設定されていないからなんです。

解決方法はとても簡単。

PERFOURMANCE>使用するIteration(普通は最新のIteration)の画面を開きます。

すると、上のタブにMake Defaultというボタンがあります。

それをポチっとします。

それだけです。

Aleady Defaultに表示が変わればOK。

f:id:camel-balon:20170928211342p:plain f:id:camel-balon:20170928211347p:plain

この機能は、Iterationが複数あった場合に、どのIterationを使うのか予め指定しておく為のものです。

APIから呼び出した際にIterationが引数として選択されていない場合には、Default設定されたIterationを使います。

なので、複数Iterationがある場合には指定をしておく必要があるのです。

ただですね。

Iterationが一つの場合は特に設定しなくても作られたIterationを使ったような気がするんですよね。

Iterationが一つで、何もしなくても結果が返ってきた人もいましたので。

その一方で、Default設定しないと結果が返ってこない人も続出しました。

ですから、基本的にはIterationが一つでもDefault設定はしておいた方が無難なようです。

IEは使わないようにしよう。

あと、もう一つあったケース。

Custom Vision APIのページを開いたら、Loadingが長時間表示されて、エラーとなったというもの。

不思議だなぁ?初めてみるなぁ?と思って、他の方に助けを請うたら、あっさり解決してくれました。

「これは、、、IEだからかも。」

あ、なるほど(−_−;)

うん。IEではやらない方がいいですね。

Chromeで開いたら、何事もなく開きました。

Oh。

でも、これ。

わりと今後は使ってくれる人が増えるほど、あるあるな問題なんじゃないでしょうか。

覚えておきましょ。

まとめ

今回はいつもの勉強会とはちょっと違って、 様々な人が集まったハンズオンでした。

駅すぱあとWebサービスも面白いので、是非皆さん遊んでみてください。

最後に私がやったハンズオンの結果をのせておきます。

Cognitive Services に入門したい方へ!初心者向け資料をまとめてみたよ!

f:id:camel-balon:20170919200350p:plain

こんにちは。メガネ成分99%配合の「ほぼメガネ」です。

1%がどんな成分かは自分も知らないですが。

さて、Cognitive Servicesですが、登場してから約1年半がたちました。

数多くのメディアでも紹介され、私も参加しているCogbot勉強会もほぼ毎月開催していることもあり、徐々にいろいろとやってみたいという方が増えてきたかなという印象を持っています。

ただ、Cognitive ServicesはAPIが数多くある為、始めてみたいんだけど、どうしていいかわからない・・・。という迷えるCognitive難民もいるのではないかなと思っています。

今日はそんな迷える方々に贈る、入門向け資料をまとめてみました。

Cognitive Servicesへ一歩踏み出す前に

さて、まとめた資料をご紹介する前に、ここまでの文章を見て、「Cognitive Serivices」ってどうやって日本語に変換したでしょうか?

「Cognitive Services」は「コグニティブサービシーズ」と読みます。

最後は複数系の呼び方ですね。ただ正直長いので、普段は「コグニティブ」とだけ読んだりします。

皆さんこれは知ってるかと思いますが、Mircrosoft(通称:MS)の製品です。

決してA*Sとか、G**gleとかじゃないですからね。え?Salesf***?

いや、全然違うから!!!

Cognitive Servicesの入門向け資料

それでは資料のご紹介です。


まずは本家本元。MSのサイトです。Microsoft AzureというのはMSのクラウドサービスになります。 ここでは、各APIの概要が載っていますので、どんなAPIがあるのかなと探すときに重宝しますし、各APIのページに飛ぶので、頻繁に見るサイトです。 azure.microsoft.com


MSのエバンジェリストの大森さんのパワーポイント資料です。 非常に良くできていて、Cognitive Servicesの概要を知るにはもってこいの 資料です。私もこれを見て、サービスの全容を勉強したりします。

www.slideshare.net


とりあえずどんな感じなのかを知りたいという方は、写真に写っている人の年齢を当てるhow-old.net、犬の種類を当てるWhat-dog.net、どんな写真かを分析するCaptionBotを触ってみましょう。英語のサイトですが、何をしているのかは直感的にわかりますよ。

how-old.net www.what-dog.net CaptionBot - For pictures worth the thousand words

Cognitive Servicesを始めてみたい人向け資料

Cognitive Servicesの概要は理解したけど、その次にどうしたらいいのかわからない・・・。

そう思う方もいるかと思います。

そんな時はいろいろなハンズオン資料もありますので、そちらを見て勉強していきましょう!

Cogbot勉強会で登壇したり、ハンズオンをした際の資料です。これらの資料を読むだけでも充分にCognitivie Servicesについてつかめると思います。 (内容が古いものもありますので、そこはご注意ください。)

docs.com


githubにはCoginitive Servicesを使ったSampleがあがっています。 試しに触ってみましょう。

github.com

尚、これらのサンプルにはAPIキーが必要になります。 APIキーを取得したことがないという方は、こちらのページを参考にしてください。試用版の無料キーの取得方法が載っています。

qiita.com

詳しい人に聞いてみたい。もっと知りたい。

  Cognitive Servicesに興味がある。詳しい人に聞いてみたいという方は、 Cogbotの勉強会に参加しましょう。

CogbotというのはCognitive ServicesとBot Framework についてのコミュニティです。月1回のペースで勉強会やハンズオンを行っていて、 Cognitive ServicesやBot Frameworkについての知見がたまると思います。

cogbot.connpass.com

まとめ

最後は軽く宣伝入ってましたが、いかがでしたでしょうか。

Cognitive Servicesを始める為の資料はかなり集まっています。

難しく考えずに、まずはTryしてみましょう!

まずは自己紹介

 

f:id:camel-balon:20170914215411j:plain

 こんにちは。

はてなブログを始めました、ほぼメガネです。

Coginitive ServicesがMSから登場して1年以上、登場当初から様々なAPIが登場しています。

それらのAPIを調べてみると、かつての秋葉原のパーツ街を彷彿とさせます。

どんな面白いことができるんだろう。

これとこれを組み合わせたら面白いものができるかもしれない。

そんなギミック的なものを書いていければなと思っています。


ということで、いろんなところでブログを書いていますが、Coginitive系の話題はこちらに集約しようと思います。