Soundtheory社のGullfoss作者のAndreas Tellさんがインタビューに答えている記事を見つけたので、翻訳してご紹介します。
はじめに
これはGullfossが発売されてすぐの頃のインタビューで、製品コンセプトや背景の理論などについて語っています。読めばGullfossの使い方がわかるというハウツー系の話とは少し違いますが、製品に対する理解は確実に深まると思います。source
開発者インタビュー
インタビュアー(以下I):Gullfossは何のためのものですか?包括的に使うのか、それとも特定の用途のものですか?個別のトラック、サブグループ、ミックス全体、どれに適すると考えていますか?
Tellさん(以下T):「Gullfossがどう役立つのか、私たちにもまだわからないところがあるんですよ。個々の楽器やミックスバス、ステレオマスターに活用できるのは間違いないんですが、他にも会話の録音をクリーンナップしたりステレオのライブ録音を大きく改善するといったこともできるんです。すごく単純な機材だけで録音されている場合は特にね。2トラック・レコーダーをテーブルに置いて生のジャム・セッションを録音したりすると、その場で聞こえていた音とは似ても似つかないような録音になってイライラすることありますよね?そういったものはGullfossを使うとものすごく上手に直せますし、まさにその場にいて聞いた感じを取り戻せるんです。だから私たちとしては、使い方を少数の場面に限定するつもりはありません。私はいち科学者として実験が大好きですし、私に言えるのはみなさんも同じように実験してみたらということだけです。」
I:コンセプトはどうやって思いついたんですか?
T:「私は自分が関わっているバンドのライブサウンドの仕事を多くやってきました。ふだんサウンドに関しては褒められるんですが、個人的には満足したことは一度もなかったんです。そしてある時気づきました。EQを使っても問題は解決できない、いやそもそも手に入るどんなツールを使っても解決できないのだと。私はその時はどんな解決策があるのか見当もつかなかったんですが、とあるディスカッションの中でたまたま浮かんできた別の疑問のおかげで状況が変化しました。その疑問とは、”滝の音はどうしてこんなに心地よく聞こえるんだろう?”というものです。ひょっとするとあなたはこう答えたくなるんじゃないですか?”それは滝の音がピンクノイズに似ているからだ!”ってね。でもこれは答えになっていません。なぜピンクノイズが心地よく聞こえるのかという話になりますから。
この時すでに私は聴覚の研究に深くかかわっており、私たちはこの特定のモデルに何年も取り組んでいました。だからそのモデルをピンクノイズにも当てはめるとどうなるか試すのは自然な流れでした。そこで明らかになったのはピンクノイズもまた劇的に改善され得るということですが、しかしより重要な発見は、ピンクノイズが心地よく聞こえるのにはとても深い理由があって、そのことを一般化すればさらに力強いコンセプトが得られるかもしれないという点です。そしてそのコンセプトを用いれば、ライブサウンドを改善するにはただEQを掛ける以外に方法はないのかという別の疑問の答えにもなるかもしれないのです。
実際使われている知見を単純な用語で説明するのは難しいですが、これは本質的には情報に関する理論なのです。私たちが発見したのは、脳に伝わる情報量(私たちの知覚アルゴリズムを使ってモデル化したもの)を最大化するには、音声信号をその中身に応じて動的にイコライジングすればよいということです。この情報の最大化は、より細やかで、明瞭、空間的な正確さ、プレゼンスを併せ持つ心地よいサウンドをもたらします。これこそGullfossが行なっていることなのです。」
I:私たちが音声に必要とするような音響心理学上の知覚や特徴をどうやってモデル化することに成功したのですか?
T:「私たちが使っているモデルは私が15年以上も前に思いついたアイディアに基づいているんです。私の来歴をわかってもらうためにも、私たちは音響心理学をまったく利用していない、ということをご理解ください。
”音響心理学”というのは経験主義的な手法によって音の知覚を説明する学問の名前ですよね。その手法は通常、リスニング・テストを実施して、ある種の音の刺激に対する被験者の反応を記述し、それをリスト化して表を作るわけです。このような実験は根本的解釈が非常に難しく、評価も容易ではありません。なぜなら知覚は主観的なものだからです。さらに、聴取というのは大元からノンリニアなので、こうした特殊なリスニング状況や音の刺激からもっと一般的な聴取の場面を推定するのは簡単ではありません。言い換えると、音響心理学の手法に取り組むことはイラっとする多くの当てずっぽやダメな近似を使うことなのです。
当時の私はそのことをよくわかっていて、信号処理の手法が知覚に関連するなどとは考えていませんでした。さらに言えば時間周波数処理についてあまり満足いくものだとは考えていなかったのです。アカデミックな物理学の研究で私は量子論のことだけをやっていたのですが、音声知覚についてはいつも頭の片隅に引っかかっていました。そしてついに、私が用い発展させてきた数学的手法によって時間周波数解析への異なるアプローチをひらめいたのです。このことで私は幾何学と情報とに深く関わる時間・空間の公式化へと進みました。さらにその後私は、知覚を進化の圧力のもとで特定の情報特性を最適化するプロセスとして描くような、純粋に理論的な構築へと進んだのです。だからこそ、コンピュータを用いる知覚モデルへたどり着き、そのモデルは極めて少数の自由パラメータしか持たない第一原理に基づいているのです。そしてその自由パラメータは人間の聴覚システムにおける実際の物理的実現に依存し、容易に推定することが可能です。
これもまたGullfossで一番重要なのは情報であることの理由です。美学は音楽が早い時期から成功していた分野ですが、私たちはそういった美学の手法を一切適用していません。かわりに、私たちは聴き手の脳を根本的な方法で満足させようとしているのであって、美的な判断の方はユーザーに任せます。」
I:Gullfossは”人工知能(AI)”だとみなしていいのですか?それとも単純な客観知能ですか?
T:「難しい質問ですね。現代の理解によればAIは機械学習と非常に密接に関わっているのですが、私たちのテクノロジーには機械学習はまったく応用されていません。理論物理学者として、私はむしろモデルの全ての面を理解し、第一原理から取り掛かる方がずっと好きです。
どうふるまうべきかという例を与えて未知のニューラルネットワークを訓練すれば、感動的なほど成功することもあり得ますし、深層学習における近年の進歩はいくつかすばらしい例があることも確かです。しかし、そこには問題点も多々あるのです。機械学習の手法は学習済みのことを再現する点についてはとても上手くやるのですが、未知の事柄の推定に関しては圧倒的に下手なのです。他にも、ある種の様相を他の様相よりも”過剰適合”つまり過剰に好んでしまうという問題もあります。この点に関して打てる手はほぼ無く、より多くの例を使って訓練させるしかありません。しかしここで選ばれる例はすでに結果に対するバイアスを生じさせます。したがって、この文脈ならば私はおそらくノーと言うでしょう。つまりGullfossは人工知能ではありません。そうではなくGullfossは洞察と慎重な設計なのです。」
I:Gullfossはフェイズのずれや不自然なノイズ無しでたくさんの調整をスピーディーに行なっていますね。これはどうやっているんですか?
T:「それについてはGullfossの開発段階では実際大きな課題でした。私たち以外にも高度なダイナミック・イコライザーを作った人たちはもちろんいますが、私の方がより良くできていると思っています。よくあるやり方として、リニアフェイズを用いるものがあります。これは簡単にできる手法で、時間とともに変化する高速畳み込み、つまりFFTフィルターと呼ばれるものを応用するんです。もしこういうアプローチを取ったとしても私たちには役に立ちません。リニアフェイズはプリ・リンギングを生じさせ、これは経時マスキングのせいでポスト・リンギングよりもずっと目立ちますし、通常の周波数レスポンス・デザインの手法は私たちが求めるものに対してあまりに不正確なのです。
他の案としては、十分多くのバンド数をもっていてリアルタイムでコントロールできるグラフィック・イコライザーがあります。しかしこれも私たちには役に立ちそうにありません。その理由はいくつかありますが、周波数レスポンスの大きさをコントロールする点て正確さを欠くというのがおそらく一番大きな理由です。
そんなわけで私たちは異なるアプローチを基礎に据えて、全く新しい手法を開発したのです。基本となるアイディアは、そもそも信号を変化させるのではなく聴覚モデルにおける知覚されたサウンドの方を変化させ、そこから逆向きにたどっていくというものです。そして私たちはこのアイディアのおかげでプリ・リンギングとポスト・リンギングの間でちょうどぴったりのトレードオフを得ました。その結果、ある意味で知覚と適合するような音の変化を得たのです。これらのフィルターは自然なサウンドを保ったまま極めて正確かつ俊敏にコントロールできます。」
I:これはスタートラインなのか、それともゴールですか?つまり、Soundtheory社はそういった知識を他のオーディオ処理機能にも応用しますか?将来的にどんなものが期待できそうですか。
T:「ええ、もちろんここで立ち止まったりしませんよ!私たちの開発した聴覚モデルは探求すべき応用例がたくさんあります。聴覚モデル以外にもいくつかのアルゴリズムがあって、それらは将来的に製品に生かされるでしょう。どの方向へ向かうのかまだしっかりと決めていませんが、当面はGullfossをより良いものにするため取り組みたいと思います。その後どうするかはまだなんとも言えません。」
解説と感想
作者のテルさんは量子論を研究している物理学畑出身の方だったのですね。知りませんでした。そういえばAuto-Tuneもソナーの音響技術研究者が開発に関わって生まれたものだと聞いたことがあります。物理学方面に強い開発者は革新的なプラグインを作り出すアドバンテージがあるのかもしれません。
GullfossはAIではない、機械学習も使っていないというのはやや意外だったかもしれません。インテリジェントEQといえば、AIを前面に押し出しているiZotopeのNeutronが対抗馬のように語られることが多いですが、Gullfossはそれとは根本的に違うアプローチで開発されているようです。
その方法はインタビューを読む限り、人間の聴覚をコンピュータでモデル化し、そのモデルを使ってEQの動きを制御するというもの。ヒトが聞いて心地よく聞こえるように自動でEQを動かすというのがGullfossの前提で、そのためにまずヒトの聴覚をモデル化したのですね。こう聞くと「音響心理学かな?」と思ってしまいますが、それはインタビューの中でやや辛辣な調子で否定されています。心理学なんてそんなあいまいなものには頼らないよ、こっちは全部原理原則から作ってるんだからといった感じ。さすが理論物理学者です。
そしてEQの動きには「(コンピュータによりモデル化された)脳に伝わる情報の最大化」という考え方がある…らしいのですが、正直この部分はインタビューだけを読んでもよくわかりません。きっとものすごく難しい理論が背景にあるんだろうなあと遠い目で眺めることしかできません。
ともあれ、EQを自動化する基準がGullfossの場合は「ヒトの聴覚で心地よく聞こえること」だというのは面白いと思います。
インタビューの中では「滝の音」や「ピンクノイズ」の話が出てきましたが、これらはヒトの聴覚に心地よく聞こえる周波数の代表例になっています。ピンクノイズをある種の基準にしてミックスを調整するというのは古くからあるリファランス方法の一つですね。今では実際の楽曲をリファランスにする方が多いのであまりやらないかもしれませんが…。いずれにせよ、Gullfossの最新テクノロジーが古くからあるピンクノイズの話と結びついているのは興味深いです。
製品マニュアルを見ると…?
Gullfossがどうやって自動でEQを行なっているのかは、実は製品マニュアルにもちらっと書いてあります。その部分を訳して引用します。
「GULLFOSSが信号を処理する仕方は、いわばあらゆる瞬間に信号を明瞭化するよう絶え間なく調整され続けるEQに例えられます。この調整はヒトの聴覚の先進的モデルに基づいており、それによってGULLFOSSは信号が実際どう鳴っているか判断し、どう改善できるのかを判断しています。」
インタビュー中で言われていた内容のまとめのような文になっていますね。EQが絶え間なく動いて音を調整してくれる、例えるならGullfossはそういうものだと書いています。その動きは聴覚モデルに基づいているわけです。
__________________________________________________
ここから先はやや蛇足なのですが、日本語の製品マニュアルは翻訳がちょっと残念な感じです。同じ部分を引用すると
「GULLFOSSで信号がどのように処理されるかはイコライザで確認できます。イコライザは各時点の信号の明瞭度を改善するために連続的に調整されます。GULLFOSSには、信号が人間に実際にどのように聴こえるか、また、それをどのように改善できるかを理解するための非常に高度な機能が搭載されています。このイコライザ調整にはこの機能が使用されています。」(製品マニュアル日本語版)
どうしてこうなった…。英語の原文には「イコライザで確認できる」とは書いていません。多分、翻訳した人自身意味がわからないまま訳したのではないでしょうか?なんとなくそれっぽい感じに訳されていますが、意味は通りません。念のため原文はこうなっています。
The way GULLFOSS processes a signal can be compared to an equaliser that is continuously adjusted to improve the clarity of the signal at every moment. The basis for this adjustment is a highly advanced model of human auditory perception that allows GULLFOSS to understand what your signal really sounds like and how it can be improved.
「an equaliser」というのは、当然ながらGullfossのことではなく、仮定のEQの話です。「an」というのがその目印になります。ここはGullfossはいわばこんなEQに例えられる(can be compared)という説明をしている箇所なのです。
Similar Posts:
- None Found
素晴らしい記事をありがとうございます。
お役に立てれば嬉しいです!