2024.12.18

VOCALOID 20周年記念スペシャルインタビュー -開発者編-

今日は20周年記念インタビューということで、静岡県浜松市のヤマハ本社に、VOCALOIDの成功を支えたお二方をお呼びしました。

VOCALOIDを支えるキーパーソン、ヤマハ(株)の 剣持さん(左)と吉田さん(右)

VOCALOIDを生んだヤマハの技術力とテキスト音声合成の出会い

Q: 今でこそ絶大な知名度を誇るVOCALOIDですが、開発や製品化のきっかけを教えて下さい。

剣持VOCALOIDプロジェクトが立ち上がったのは、ようやく打ち込みで音楽を作ることが一般化し始めた頃で、ソフトウェアサンプラーやソフトウェア音源がようやく使えるようになってきた時代です。多くのクリエイターはパソコンにハードウェア音源を接続して打ち込みをしていました。

剣持さんがVOCALOIDプロジェクトを立ち上げたのは2000年のこと

当時でも打ち込みで様々な楽器の音色や演奏を再現できていましたが、歌声だけは再現できていませんでした。シンセサイザーのように人間の声を合成できるフォルマントシンギング音源を搭載した「PLG100-SG」というプラグインボード(*対応音源に装着することで、音源を追加できる拡張ボード)はありましたが、明らかにコンピューターの声であって、人間の声とは大きな差がありました。

*PLG-100SG:https://jp.yamaha.com/products/music_production/plugins/plg100-sg/index.html

実はVOCALOIDプロジェクトの開始前に別の会社に出向していて、テキストから喋り声を合成するシステムを作っていました。その後ヤマハに戻り、ヤマハが持っていた音声信号処理技術と、私が持っていたテキスト音声合成の技術を組み合わせることで、歌声を合成することができるのではと考えました。

また、バルセロナにあるポンペウ・ファブラ大学とコネクションがあり、共同研究として歌声を合成するプロジェクト「DAISY」がスタートしました。それが2000年の2月のことです。

プロトタイプが出来始めて歌声データベースを開発する段階になり、歌声の元になる質の良いボーカル素材を相当数レコーディングする必要が出てきました。そこで、吉田さんに声をかけました。

吉田:当時はDM2000というデジタルミキサーのサラウンドエフェクトを開発する部署に在籍していて、社内のスタジオに常駐して相当数のレコーディングを行なっていました。そんなある日、剣持さんからレコーディングを依頼されたんです。VOCALOID1(*2003年発売)が発売される前の2002年、ちょうど日韓ワールドカップがあった年です。

当時はデジタルミキサー開発に携わっていた吉田さん

以降は豊岡工場にボーカリストに来ていただいて、2〜3日かけて素材を録音するという作業を繰り返しました。その後はVOCALOIDのリリース前に一旦ヤマハを離れました。

<当時の豊岡工場>

剣持:VOCALOID1がリリースされるまでに4年の月日がかかりました。試行錯誤の繰り返しで、入力インターフェースにピアノロールを採用したのもプロジェクトが始まってから1年ほど経った後でしたね。ピアノロールの音符の近くや音符の上に歌詞を入れるというのは、試行錯誤の上考えついたものです。

VOCALOID(1)の入力画面

VOCALOID2となった2008年頃、ご存知のように前年のクリプトンさんの初音ミクのリリースによって一躍VOCALOIDは知られるようになり、同時に多忙になりました。レコーディングも社内で、しかも本格的に、高頻度で行う必要が出てきたので、吉田さんに電話しました。こういう仕事があるんだけど、興味ありませんか?って(笑)。

吉田:(当時いた会社を)辞めたって聞いたけど、今暇ですか? って言われたのを覚えていますね。すでに別の仕事をしていたのですが、気になったので会って詳しく話を聞くことになったんです。

2008年、剣持さんは再び吉田さんに声をかけた

VOCALOIDからは一旦離れた訳ですが、改めてその頃のVOCALOIDや初音ミクについて調べてみたら面白そうで。当時は「ボーカルといえば人間が歌うもの」という固定概念があったんですけど、そうではない世界に衝撃を受けました。

また、私が知っていたのはVOCALOID1になる前の音でしたから、それがVOCALOID2になって「こんなに変わったんだ」という驚きもありましたね。勤務地も昔と同じ豊岡工場ということで、再び参加させてもらうことになりました。

大変だったのは、世の中に無いものを理解してもらうこと

Q: 今までのVOCALOID開発の中で大変だったことを教えてください。

剣持:技術的に大変だったことも沢山ありますが、「歌を合成する」「コンピュータが歌を歌う」ということ自体を理解してもらう、世の中に存在しないものを生み出して、その価値を理解してもらうのが一番大変でしたね。

今は「あぁ、ボカロ曲なんだね」とか「初音ミクなんだ」と受け入れてもらえますが、当時はコンピュータが歌を歌うことに対して理解してもらうのが困難でした。「これの何が面白いの?」「何の役にたつの?」とか、「人間が歌えるのに何でわざわざコンピュータに歌わせる必要があるの?」とか。世の中どころか社内で理解してもらうことすら大変でした。

VOCALOIDは2003年のMusikMesse(*ドイツのフランクフルトで毎年開催されていた音楽制作機器等の展示会)で発表したのですが、会場で「Computer sings!」 と呼び込みをしていたら、通りかかった方が「I can sing!」と言って通り過ぎていきました(笑)。理解してもらうのは大変でしたが、面白いことをやっているというのは伝わっていたように思います。デモンストレーションは日を追うごとに参加者が増えていきました。会場でデモCDを配っていましたね。

<2003年のMusikMesseのブースの様子>

吉田:そのCD、まだ私の手元にもありますよ! たぶん社内に現存する最後の2枚かもしれません。

<2003年のMusikMesseで配布していたデモCD>
vocaloid_yamaha · 01 Kimi No uwasa(Japanese)
vocaloid_yamaha · 07 Amazing Grace

2008年に再合流した後はレコーディングエンジニアとしての立場ではなくて、ディレクションを中心に行ったのですが、一般的なボーカルレコーディングとは全く異なるディレクションが必要で大変でした。演者さんにとっても大変なレコーディングになることがわかっているので、良い声を引き出す環境づくりというか、おやつは何を買おうかな、とかいろいろ考えながら進めていました。

一般的な音楽のレコーディングでは作品の背景を理解してディレクションを行いますが、VOCALOIDの場合は子音と母音の移り変わりのパーツを録っていくんです。まるで呪文やお経みたいな、パッと聴いても意味がわからないような特殊なワードを録音するので、まったく異なるディレクションが必要になるんです。

剣持:最初は僕が呪文を考えていました。色々試しながら、こうやって録ったらいいんじゃないかって試行錯誤の結果生まれて、それが残っていった感じですね。

vocaloid_yamaha · V1_articulation

吉田:ジャッジできるのは自分しかいないということも大きなプレッシャーでした。声質の良し悪しだけではなく、ボイスバンクの素材として適切なのかを想像して判断する必要があるんです。

今は収録方法が変わり、呪文は使われなくなりました。2022年にリリースしたVOCALOID6に取り入れた新しい歌声合成エンジン「VOCALOID:AI」用のボイスバンク制作では、ボーカルデータを元にボイスバンクを作るため、普通のボーカルレコーディングと同じような工程になったのですが、従来からの開発視点のディレクションに加えて音楽プロデューサーと同じディレクションも必要になりましたので、仕事の難易度がどんどんあがっています(笑)。

さらには企画にも携わるようになり、売上などの数字を今は見ています。開発だけをしていた頃は「良い音を作る」ことだけに注力していたのですが、利益や販促など、視点を大きく変える必要がありました。今でも難しいです(笑)。

VOCALOIDとニコニコ動画が同じ時代に生まれた奇跡

Q: VOCALOIDに携わってきて、もっとも印象的だったことを教えてください。

剣持:クリプトンさんから初音ミクが発売された頃、ニコニコ動画に凄い勢いでVOCALOID楽曲が投稿されていたことです。始めのうちは全曲聴いていました。次第に曲数が増えて帰宅してからもチェックが必要になり、それでもすぐに時間が足りなくなって(笑)。自分が手がけた技術を皆様に使って頂けていることを実感できて、とても嬉しかったですね。

当時ニコニコ動画はすごい盛り上がりでしたが、元々VOCALOIDの作品を作って投稿するという流れがあった訳ではなく、VOCALOIDとニコニコ動画の登場したタイミングが奇跡的に揃ったことが大きかったと思います。VOCALOIDで作った曲を公開する場ができたことで、一気に広がっていきました。

吉田:そうですね、自分が関わった歌声ライブラリをリリースすると、その日のうちに色々な曲が次々と投稿されて、感想が届く。すごく新鮮で嬉しい経験でした。

すぐにリアクションが得られ、作品になる製品はヤマハでも少ない

ヤマハで作っている楽器の数は多いですけど、新発売した楽器のフィードバックがすぐに得られることは決して多くないと思います。しかしVOCALOIDの場合はすぐさま「〜に歌ってもらった」というレビュー動画が投稿されるんです。中には厳しい意見もありますが、率直な感想やアクションがすぐにいただけるのは嬉しいです。

Q: 特に印象に残っているVOCALOID楽曲はありますか?

剣持:たくさんありますが、一つだけ選ぶとしたら「ワールドイズマイン」ですかね。2コーラス目で、それまでのツンからいきなりデレが出てくる。どういう意味なんだろうと考えて、「そうか、男性の側から見た理想のツンデレ女性を描いた、そういう曲なんだ」と私は解釈したんですね。それが分かった時に涙が出てきた(笑)。VOCALOIDは男性から見た理想の女性像を作ることもできるのか、と気付かされたんです。

初音ミク が オリジナル曲を歌ってくれたよ「ワールドイズマイン」

https://www.nicovideo.jp/watch/sm3504435

生身の歌手が歌うとどうしても歌手に引きずられてしまい、受け取り方は変わってくると思うんです。もちろん初音ミクがツンデレの女性を演じているという見方もできますが、現実としてその女性は実在しない訳です。そう考えていくと、やはり人間のボーカリストとは違った表現ができると思うんですよね。

剣持さんは人間では難しい表現ができることに気づいたそうだ

Q: 吉田さんはいかがですか。

吉田:VY1(*2010年にリリースされた、ヤマハ初のボイスバンク)のリリース後、石川智晶さんの「アンインストール」のカバー曲がアップされていたんです。

VY1 - アンインストール(カバー)

https://www.nicovideo.jp/watch/sm12018350

VY1は録音する呪文を変えた最初の製品で、それまでの製品と比べたら歌のつながりが滑らかになったという実感があった一方で、まだまだ人間の歌声とは違うな、と感じていました。

でも「アンインストール」を聞いた時に「VY1すげー!超リアル!!」と思いましたね。すごく驚いたのを覚えています。クリエイターの皆さんが常に我々の想像を超える表現をVOCALOIDでしてくれるのが、常に驚きですね。

Q: そんなVOCALOIDが20周年を迎えるということで、開発者として感じていることを教えて下さい。

剣持:長いようで短かったなというのが正直なところです。20年前にどんな作品があったかを振り返ってみたんですけど、音楽作品もあれば、そうじゃない作品も、ちょっとクスっと笑ってしまう作品もあって。でも共通しているのは、クリエイターの人たちが面白がってコンテンツを作っていて、その混沌の中からキラリと光るものが出てきて…。色々な才能を持った人が、良い意味でその才能を無駄遣いしてきて盛り上がってきたのが20年なのではないかと思います。これからも新しいものがどんどん生み出されていくと嬉しいですね。

吉田:私も同じであっという間でしたね。VOCALOIDでやりたいことが、まだまだ沢山あります。VOCALOID 6になってVOCALOID:AIという新しい歌声合成方式を取り入れたことで、より自然な歌声が出せるようにはなりましたが、まだまだ人間の背中は遠いところにあると感じています。

その一方で、VOCALOIDは電子楽器として作っているので、もっと自由な歌い方や、色々な歌声が出るようにしていきたいです。昔ながらの「これは合成音でしょ」という声もあれば、人間そっくりな声もあっていいんです。ボーカルの総合デパートのようなものを作りたいですね。古い、という言い方が好きではないのですが今までのボイスバンクも残して、新しいボイスバンクもつくっていって、クリエイターにとって選択肢を広げる存在でありたいと思いますし、今後もそんな提案をしていきたいと思っています。

Q: 最後に、VOCALOIDを使って作品を作っているクリエイターの方々に一言お願いします。

剣持:開発者の想像をはるかに超え、ツールの可能性を極限まで広げていただいているのがクリエイターの皆様だと思っています。われわれが想像もできないような使い方で、歌声合成の可能性を広げていっていただけるのを楽しみにしています。

吉田:20年の歴史を持つVOCALOIDには、本当に沢山のボイスバンクがあります。歴代のVOCALOID1からすべてのボイスバンクを比較試聴できるサイトを作りました。ご自身の楽曲で歌ってもらえそうな、すごい使い方ができそうなボイスバンクを見つけてもらえると嬉しいです。皆さんの作品を聞くのを楽しみにしています。

これから生まれる作品も楽しみにしているという剣持さんと吉田さん

インタビュー・記事制作:合同会社SoundWorksK Marketing