【新規事業候補】既存の代表的な議事録作成サービスの概要/機能/必要機器の調査

In Blog, Uncategorized by adminLeave a Comment

こんにちは、インターンの松井です!このブログでは【新規事業候補】という題名で、新規事業の立ち上げに当たって調査した様々なサービスや業界の現状、顧客の需要などについてまとめた記事を不定期で投稿しています。もし、調査内容が誰かの役に立ったり、更なる追加調査の一助となれば幸いです。4回目となる今回は「既存の代表的な議事録作成サービスの概要/機能/必要機器の調査」についての記事を投稿します。

ちなみに少し「調査内容、結果」という本記事の趣旨からは脱線しますが、サブライムが新規事業として議事録作成サービスに目を付けた原因は2つあります。
 1つ目は、週刊東洋経済の2020年8月の記事「厳選!ベンチャー100社リスト」に議事録作成サービスのsmart書記を運営する株式会社エピックベースが取り上げられていたからです。議事録作成サービスが時代をけん引する成長産業なのではないかと予想しました。
 2つ目は、2020年の音声テック業界カオスマップの文字起こし・議事録部門の中で、サービスを始めて間もない企業が散見されたためです。新興サービスでもまだ戦える業界だと予想しました。

では、調査内容、結果について触れる前に、そもそも「議事録作成サービス」とはどのようなサービスなのかについて紹介します。

議事録作成サービスとは?/調査結果を見る前の前提知識

議事録作成サービスは「音声」を元に議事録の作成を代行・支援するサービスです。議事録作成サービスは大きく分けて2種類あります。

  • 代行業者:人が文字起こしを行うため、品質は高いが、価格が高く、納品までに時間がかかる
  • アプリ/WEBサービス:システムが自動で文字起こしを行うため、品質は安定しないが、価格が安く、納品もすぐ可能
アプリ/WEBサービスの例:smart書記

サブライムではこの二種類のうち、アプリ/WEBサービスでの議事録作成サービスを新規事業として立ち上げようと考えています。

このアプリ/WEBサービスでの議事録作成サービスでは、基本的に①収音②文字起こし③テキスト編集の流れで議事録の作成が行われます。ここで、①,②の際に用いられる音声認識プラットフォームというものについて一言で解説しておきます。理由としては、以下の調査結果において、音声認識プラットフォームについて言及する機会があるからです。音声認識プラットフォームを一言で表すと「音声を認識して文字に変換してくれるシステム」のことです。音声認識プラットフォームの例としては、GoogleのGoogle Cloud Speech-to-Text、IBMのWatson Speech to Textなどがあります。簡単になってしまいましたが、議事録作成サービスについての基本的なサービス内容、前提知識の紹介はこれで終わります。

調査結果

では、ここから既存の代表的な議事録作成サービスの概要/機能/必要機器の調査結果について紹介していきます。調査結果の紹介は、初めに既存の代表的な議事録作成サービスの概要をまとめたスライド1について解説した後、各社のサービスの機能/必要機器についてサービスを実際に使用する流れに基づいてまとめたスライド2について解説するという流れで行います。

既存の代表的な議事録作成サービスの概要についての解説

スライド1の表は、代表的な議事録作成サービス、サービスの運営会社、サービスの使用場面、価格/契約期間、サービスに使用されている音声認識プラットフォーム、導入実績、サービス開始時期をまとめたものです。尚、調査した結果、不明だった部分には「不明」と記載しています。この表からわかることはスライドのキーメッセージを含めて以下の2点です。

  • 発言の重要度が高い場面で使用するサービスは高価で、WEB会議がメインのサービスは安価
  • 各社で使用している音声認識プラットフォームはそれぞれ全く異なる

ここから考えられることは、サービス運営にかかる「コスト」が決定するまでの流れです。具体的には、以下の1~3の流れでコストが決定することが予想されます。

  1. どのような場面で議事録作成サービスを用いるかによって求められる音声認識の精度が変わる
  2. 求められる音声認識の制度によって音声認識プラットフォームを選定・改良/作成する
  3. コストが決定する

使用する音声認識プラットフォームをどうするかでコスト、ひいてはサービスの料金が変わるということに関しては、実際自社で音声認識プラットフォームを作成しているアドバンスド・ウェアのAmivoice,FairyDevicesのmimiの料金は非常に高額である一方、既存のMicrosoftの音声認識プラットフォームを使用しているSloosは低価格でのサービス提供を行っていることからも伺えます。しかし、この考察だと既存の音声認識プラットフォームGoogle Cloud Speech-to-Textを用いている「Smart書記」、Watson Speech to Textを用いている「SandiAI」が高額である説明がつきません。これに関しては、二社の「使用場面」に注目すると説明がつきます。二社のサービスの使用場面を見ると「決算発表の書き起こし」「経営会議」など重要度の高い場面で使用するサービスであることが分かります。そのため求められている音声認識の精度が高いわけです。そのため、既存の音声認識プラットフォームを自社なりに大きく改良したものをサービスとして用いている可能性が高いです。その分がコストに上乗せされて、比較的高額なサービス料金になったことが予測されます。

各社のサービスの機能/必要機器についての解説

スライド2の表は各社のサービスの機能/必要機器について、サービスを実際に使用する流れに基づいてまとめたものです。スライド1と同様に、調査した結果、不明だった部分には「不明」と記載しています。この表からわかることは主に以下の2点です。

  • ほとんどのサービスは収音の際にマイクを必要とする
  • オフラインで話者の自動認識を行うためには、声紋登録か専用のマイクが必要

ここから考えられることは、既存のサービスは利用が少々煩わしいということです。会議のたびにマイクをセットすること、会議前に声紋登録を行うことは、現在導入していない企業からするとその煩わしさから導入のハードルを上げる原因となり得ます。技術的に可能かどうかはまだ未検証であるものの、導入/実際の利用のハードルを考え得る範囲で取り除いたサービスを作ることができれば、新規参入した上で成長していける可能性はまだあるのではないでしょうか。

今後は、実際に既存の議事録作成サービス/音声認識プラットフォームを使用し、それぞれの性能についての検証を行っていく予定です。

次回は先日事務所の引っ越しがあったのでその様子について投稿します。お楽しみに!

Leave a Comment