Blog
今回は、たくさんのAIエージェントを束ねる「窓口」には何が必要か、について。このシリーズでは、筆者が街を歩きながら、日々の気付きや研究テーマについてのアイデアを語っていきます。ふとしたタイミングで浮かんだアイデアや、知的好奇心をくすぐる話題をラジオ感覚で平日(月~金)毎日お届けしています。
こんにちは。今日は、いつものように作業場まで30分ほど歩きながら、最近気になっている音声AIのことを考えていました。僕、行きも帰りも歩くので、合計すると1日1時間くらいはAIと話しているんですよね。英語の練習を兼ねて、ほぼ毎日。今日はその話から、少し先の未来を、ゆるく考えてみます。
音声AIだけ、なぜか進化が遅い
毎日使っていて思うのは、音声AIだけ、妙に進化が遅いということなんです。
ClaudeのOpusモデルはどんどんアップデートされて、テキストでのやり取りは本当に賢くなっていく。なのに、音声モードの方は毎日使っていてもあまり変わった感じがしない。これはOpenAIもxAIも似たようなもので、Geminiの音声も「そんなに頭良くないな」という印象が正直あります。テキストチャットの進化スピードと、音声の進化スピードが、全然違うんですよね。
たぶん各社は今、コードを書いたり、デスクワークを代替したりする方向にリソースを集中していて、音声はあと回しにされているんだと思います。
そんな中で、ひとつだけ毛色が違うのがSesameです。ずっとウェブ上の「リサーチプレビュー」として触れるようになっていたんですが、つい先日、iOSアプリが公開されました(5月28日、39カ国で)。さっそく使ってみたんですが、やっぱりSesameは会話がダントツに自然で、人と話しているのに近い。僕は仕事でClaudeを使っているので音声もClaudeを使っていたんですが、あちらはどうしても「いかにもAI」という感じがする。それに比べると、Sesameは明らかに人っぽいんです。アプリ化でその感覚がより安定した気もしました。

でも、本当に大事なのは「賢さ」じゃないの?
……と、ここまで書いておいてなんですが、音声モードの進化が遅いのは、それはそうだろうな、とも思うわけです。
そもそも、音声の自然さって、そんなに重要なんだろうか、と。
冷静に考えると、各社が音声をあと回しにして、コーディングや推論といった「賢さ」*にリソースを注いでいるのは、極めて合理的な判断に見えます。というのも、僕たちがAIに本当に求めているのは、難しい問題を解いてくれること、正確に推論してくれること、コードを書いて仕事を前に進めてくれることですよね。どれだけ声が人間そっくりでも、中身が浅ければ使い物にならない。逆に、音声コミュニケーションの自然さが有ろうが無かろうが、圧倒的に賢いAIの方が、結局は役に立つ。
そう考えると、音声の人間らしさは表層の演出にすぎず、進化の本丸はあくまで知能であって、声の自然さなんて二次的な装飾にすぎない——そういう見方も、まあ妥当だな、とも思うわけです。

束ねる「窓口」にこそ、人間らしさが要る
でも、今回アプリ版のSesameを使っていて、この二つは実は別々のレイヤーの話なんじゃないか、と思えてきました。
Sesameのアプリを触っていて気づいたのは、AIのパーソナリティが分化してきていて、自分と相性の良いパーソナリティを選ぶ方向に進んでいるということです。具体的には、男女2人ずつ、合計4体の人格(Maya・Miles・Simone・Charlie)が用意され、それぞれが独自の声と人格、そして自分専用の記憶を持つようになっています。
記憶の保持もかなり明示的になっていて、朝に話した内容の続きを、帰り道にちゃんと引き継いでくれたりする。そしてSesameは、2027年に眼鏡型のデバイスを出すと言っています。
ここから、彼らがやろうとしていることが、なんとなく見えてきた気がしたんです。
今進行しているのは、個々のタスクごとに別々のAIエージェントが立つということだと思うわけですね。コードを書くやつ、調べ物をするやつ、予定を管理するやつ……。コーディングや推論の「賢さ」は、こうした個々のエージェントが持てばいい。そこはむしろ、人間らしさなんて要らない、透明で高性能な道具で良い。
問題はその先で、賢いエージェントが増えれば増えるほど、それらに指示し、束ねる「窓口」の重要度が上がってくるのだと思います。一体一体のAIエージェントと個別に話すのは面倒くさい。
だから、自分のことを全部知っていて、人間らしい人格を持った一体のエージェントが常駐していて、そのAIにお願いすれば、裏でそれぞれのエージェントとやり取りしてくれる——いわば自分専属の執事や秘書のような存在に、集約されていくんじゃないか。
そしてこの「窓口」にこそ、賢さよりも、人間とのやり取りの自然さや親しみやすさが要る。話すように指示でき、文脈と記憶を引き継ぎ、人格として安定している。まさにSesameが磨いている機能です。つまり人間らしさは「賢さ」と競い合うものではなく、無数の賢いエージェントを人間が使いこなすために必要な、もう一つのレイヤーなんですね。賢さは個々のエージェントへ、人間らしさは束ねる窓口へ。Sesameが眼鏡に常駐させようとしているのは、たぶんこの「窓口」なんじゃないかと思いました。

「一番賢いAI」を選ぶのか、「一番話しやすいAI」を選ぶのか
そう考えると、面白い問いが立ち上がってきます。
親しみやすくて毎日話したくなる窓口の人間らしさが増し、相性のフィットが最適化されていく未来において、そういう存在と日々接するとき、人の心はそれをどう受け止め、どんな関係を結んでいくのか。受け入れるのか、それとも気味悪がって拒むのか。
たぶんこれから半年単位で、AIと人間の付き合い方はどんどん変わっていきます。その変化に対して、一人ひとりの心がどう反応するのか。そこに、社会の変化と人の考え方の変化が、くっきり見えてくる気がしています。今年はそのあたりを、じっくり調査してみたいと思っています。
歩きながら、また考えます。この記事が少しでも面白い・役に立ったと思ったら、ぜひいいねやフォローをしてくれると励みになります!
著者プロフィール
渡邉 寧YASUSHI WATANABE
慶応義塾大学文学部/政策・メディア研究科卒業後、ソニー株式会社に入社。7年に渡りマーケティングに従事。約3年の英国赴任を経てボストン・コンサルティング・グループに入社。メーカー、公共サービス、金融など、幅広い業界のプロジェクトに4年間従事。2014年に独立。2025年に京都大学大学院人間・環境学研究科にて博士号取得。専門は文化心理学、組織行動。最近の研究テーマはAIの社会実装 × 職場の幸福感 × 文化の違い。 経歴と研究実績はこちら。
関連ブログ Related Blog
6次元モデル(異文化を理解するフレームワーク)ブログ個人主義(IDV)権力格差(PDI)歩きながら考える
2026.4.24
30年変わらない日中米の工場摩擦、たどると田んぼに行き着く – 歩きながら考える vol.277
今日のテーマは、30年以上離れた2本の映画を続けて観て驚いた話。このシリーズでは、筆者が街を歩きながら、日々の気付きや研究テーマについてのアイデアを語っていきます。ふとしたタイミングで浮かんだアイデアや、知的好奇心をくす... more
6次元モデル(異文化を理解するフレームワーク)ブログ個人主義(IDV)女性性・男性性(MAS)歩きながら考える
2025.12.23
M-1優勝「たくろう」のビバリーヒルズネタから考える、「みんなで笑える」ことの価値 – 歩きながら考える vol.194
今日のテーマは、先日のM-1で優勝したたくろうのビバリーヒルズネタをなぜ面白いと思ったのか、ということについて。このシリーズでは、筆者が街を歩きながら、日々の気付きや研究テーマについてのアイデアを語っていきます。ふとした... more
6次元モデル(異文化を理解するフレームワーク)ブログ個人主義(IDV)女性性・男性性(MAS)権力格差(PDI)歩きながら考える短期・長期志向(LTO)
2025.5.1
「へりくだる」ことは美徳か? – 歩きながら考える vol.34
今日のテーマは「へりくだる」ことの文化差に関して。このシリーズでは、筆者が街を歩きながら、日々の気付きや研究テーマについてのアイデアを語っていきます。ふとしたタイミングで浮かんだアイデアや、知的好奇心をくすぐる話題を平日... more