著作権侵害を未然に防ぐ機能も持つ
昨年紹介した音楽生成AI「Stable Audio」が「Stable Audio 2.0」となり大きく進化した。
生成AIがブレイクするきっかけを作った画像生成AI「Stable Diffusion」を開発したStability AIによる音楽生成AIだ。2023年8月にバージョン 1.0をリリースした際にはこの連載でも紹介した。グーグルの「MusicLM」のようにプロンプトを与えることで、音楽を作り出す音楽生成AIで、Stable Diffusionのようにステップを経て徐々に生成が完了する“拡散モデル”を使用しているのが特徴だ。Stable Audio 2.0では、モデルが新しくなったのが最大の改良点だ。ある入力に対応して生成される出力に関して、生成のルールやパターンを決めるのがモデルである。つまり、知識やアルゴリズムを持つ中核部分が改良されたことになる。
新しい高圧縮オートエンコーダーや拡散トランスフォーマーの導入により、より長い時間スケールでの性能が可能となっている。生成できる時間を3分に延長している。また、Audio to Audio機能も追加された。これはある曲を手本にして、別の曲を作る機能だ。サウンドエフェクト生成もでき、キーボードのタッピングや群衆の歓声なども生成できる。
AIで問題となる学習元は、AudioSparx.comと契約し、同社が持つ音楽ライブラリーから「音楽、効果音、単一楽器のステム、および対応するテキストメタデータ」など、80万以上のファイル、1万9500時間以上のデータセットを使用している。また、新たに著作権保護のためにAudible Magicと提携し、リアルタイムのコンテンツマッチングに対応した。ここは、著作権侵害につながりやすいAudio to Audio機能の追加とも関係している。Stable Audio 2.0では、より著作権の問題に対して有効な手段が講じられたと言えそうだ。ここは、新しいモデルを搭載したこと以上の目玉と言えるかもしれない。
異世界転生アニメに使えそうな曲を作ってみる
早速試してみた。無料版のユーザーは、月に最大20曲を作曲できる。ここは従来版と変わらないのだが、モデル2.0を使用した場合は生成に必要なリソースが増えるため、生成できる曲数は半分に減少するようだ。
以前試して分かったのは、Stable Audioではプロンプトを自然言語で入力するよりも、Stable Diffusionのようにジャンルや楽器、テンポなど単語を列挙して行くほうがいい結果を得られることだ。Stable Audioの自然言語解析能力は、グーグルのような先進的な自然言語処理技術と比較して、なんらかの制限があるからかもしれない。今回も同様に単語を列挙するプロンプトで試してみた。記事では日本語に訳すが、実際には英語で入力する必要がある。
はじめに前回と同じプロンプトを使用した。似たような曲にはなるが音質は高くなった。ビットレートが上がったのだろう。有料版ではWAVの出力に対応しているので、さらに良い音質が得られかもしれない。
新しい曲を作ってみた。異世界アニメのサントラを意識し、民族音楽の要素を加えようと考えた。プロンプトは次のようなものにした。「ケルト音楽風のアニメのサウンドトラック音楽。オーケストラがメインだが、民族音楽風のアレンジのためにフィドルとティンホイッスルも使用する。ゆっくりと始まり、徐々に壮大になり終わる」。ちなみにフィドルはバイオリンを民族音楽で使う時の弦楽器の名前で、ティンホイッスルはケルト音楽に特有の管楽器だ。

この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ
この記事の編集者は以下の記事をオススメしています
-
ランキング1位
【整備済み品】中古 ノートパソコン富士通 A579/ 15.6型/ 第8世代Core i5-8365U/ 快適メモリ 8GB/ 高速SSD 256GB/ Win11 Pro/MS Office 2019付属/ テンキー・Webカメラ/豊富な接続端子(HDMI, VGA, USB 3.0)/ ACアダプター付属/初期設定済み・届いてすぐ使用可能/ 180日保証
¥24,880
-
ランキング2位
【整備済み品】 NEC 15.6型 ノートPC VX ノートパソコン/Windows 11 /MS Office H&B 2019/第8世代 Core i5-8350U / HDMI/WIFI/8GB/SSD 256GB/テンキー
¥27,030
-
ランキング3位
【ノートパソコン Office2024搭載 Win11 Pro】15.6インチ パソコン Core m3-8100Y 最大3.4GHz 16GB メモリ 512GB SSD ノートパソコン 1.6kg 薄型 軽量 FHD 1920×1080 英語キーボード ノートpc テンキー付き/WiFi5/BT5/Webカメラ/USB3.0/HDポート 在宅勤務 テレワーク 学生向け laptop グレー
¥44,965
-
ランキング4位
【整備済み品】ノートパソコン 富士通 LIEFBOOK U9310 13.3型 FHD 軽量薄型 ノートPC 第10世代 Core i5-10310U(最大4.4GHz)/Windows11 Pro/MS Office 2021搭載/Webカメラ/Wifi/Bluetooth/HDMI/Type-C/ワイヤレスマウス付(メモリ8GB, SSD256GB)
¥35,880
-
ランキング5位
【整備済み品】富士 通 2in1ノートパソコン V727【本体のみ】/第7世代Core M3/12.3型タッチパネル1920×1080/メモリ 8GB/SSD 128GB/Win 11/MS Office 2019/USB 3.1/Type-C/無線WIFI/オーディオ内蔵/WEBカメラ/初期設定済
¥9,600
Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。















