画像生成AIが身近な存在になる日は近い? – ③-1 Wikipedia情報について、私なりの要約

4か月ぶりの投稿のYNです。
よろしくお願いします。

今月は、「画像生成AIが身近な存在になる日は近い?」という事で、ここ数年ITの速報記事をスクラップしてきたものから、画像生成AIが身近な存在になりつつある感じを、感じ取れそうな記事をネタに、第三部(③)という感じで、少し書きたいと思います。

第一部「画像生成AIが身近な存在になる日は近い? – ① 」は、画像生成AIの概要説明と、自分のスマホアプリで生成してみたことの紹介と、米AI研究企業のOpenAI関連情報について取り上げました。
第二部「画像生成AIが身近な存在になる日は近い? – ② 」では、画像生成AIを開発している組織やAIについての情報として、画像生成AIの「Midjourney」の関連記事まとめです。
第三部では、画像生成AIを開発している組織やAIについての情報として、画像生成AIの「Stable Diffusion」の関連記事まとめです。

本稿では、IT速報サイトの記事などから得た情報から、画像生成AIの進化の具合を感じ取れる投稿になればと思いながら、書き進めたいと思います。

 

※下記リンクなどの記事の通り、本稿作成中、生成画像や画像生成AIの学習したデータセットの著作権の問題などで、研究企業に対する訴訟にまで発展してしまっているため、私が「Stable Diffusion」のLINEチャットボットで生成した画像の紹介は見送りました。下記はその参考記事です。

Stable Diffusionで作った画像と権利侵害のまとめと個人的な考え 2022-09-16

2022年11月21日 23時00分ソフトウェア 画像生成AIの著作権問題について海外や日本ではどのように解釈されているのか?

2023年01月16日 13時30分ソフトウェア 画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される

画像生成AIが「トレパク」していた? 学習画像と“ほぼ同じ”生成画像を複数特定 米Googleなどが調査 Innovative Tech 2023年02月08日 08時00分 公開 [山下裕毅,ITmedia]

 

本稿では、画像生成AIの「Stable Diffusion」の関連情報をまとめてみました。

大まかな項目として第3部は、下記の項目が有ります。
※ITmedia・Gigazineの関連記事については、時系列順に上から下に並べてあります。

①画像生成AIの「Stable Diffusion」のWikipedia情報について、私なりの要約

②画像生成AIの「Stable Diffusion」の関連記事(ITmedia)

③画像生成AIの「Stable Diffusion」の関連記事(Gigazine)

④画像生成AIの「Stable Diffusion」の関連記事(HatenaBlog企業技術ブログ(大規模言語モデルカテゴリ))

 

 

本稿では、第3部①「画像生成AIの「Stable Diffusion」のWikipedia情報について、私なりの要約」として、Wikipedia情報を要約記事として、私なりにまとめたものをご紹介したいと思います。

 

 

 

①画像生成AI研究企業の「Stable Diffusion」のWikipedia情報について

Stable Diffusion のページ冒頭部分:

「Stable Diffusion(ステイブル・ディフュージョン)は、2022年に公開されたディープラーニング(深層学習)のtext-to-imageモデル(英語版 )である。
主にテキスト入力に基づく画像生成(text-to-image)に使用されるが、他にもインペインティング(英語版 )(英: inpainting)、アウトペインティング(英: outpainting)、テキストプロンプト によって誘導される画像に基づく画像生成(image-to-image)にも使用される。

Stable Diffusionは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル(英: latent diffusion model)であり、深層生成ニューラルネットワーク (英: deep generative neural network)の一種である。
このモデルは、EleutherAIとLAION(英語版 )の支援を受け、Stability AI、CompVis LMU、Runwayの三者が共同で公開した。
2022年10月、Stability AIは、Lightspeed Venture Partners(英語版 )とCoatue Management(英語版 )が主導するラウンドで1億100万米ドルを調達した。

Stable Diffusionのコードとウェイトは一般に公開されており、少なくとも8GBのVRAMを持つGPUを搭載したほとんどの消費者向けハードウェアで実行可能である。
そのため、DALL-EMidjourney など、クラウドサービス 経由でのみアクセス可能だった従来のプロプライエタリ なtext-to-imageモデルとは一線を画すものであると評されている。

Stable Diffusionは、教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており同意を得ているわけではないので、著作権法に違反するのかどうか、フェアユース に該当するのかどうか、倫理的に適切であるのかといった法的・倫理的な論争が生じており、提供元のStability AIに対して複数の訴訟が提起されている。」

…とあり、

 

続いて「技術」の項目で「アーキテクチャ」の説明などがあります。
私は専門家ではないので、アーキテクチャの説明を読んでも、ちんぷんかんぷんですが、AIのエンジニアの方に直接聞いたり、書籍などでは、わかりやすく説明してくださるかもしれませんし、下記のGIGAZINEのサイトの情報も参考になるかもしれません。

2022年09月14日 15時00分 ソフトウェア 画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解

2022年10月06日 19時00分 ソフトウェア 画像生成AI「Stable Diffusion」がどのような仕組みでテキストから画像を生成するのかを詳しく図解

 

「技術」の項目では、「学習データ」の説明があり、

「Stable Diffusionは、LAION-5Bから取得した画像とキャプションのペアから学習している。
これは、ウェブ上から収集されたコモン・クロール のデータから派生した一般に利用可能なデータセットである。
50億枚の画像とテキストのペアが言語に基づいて分類されており、解像度、ウォーターマーク を含んでいる可能性の尤度、および「美学スコア」(英: aesthetic score)の予測に基づいて別々のデータセットにフィルタリングされている。
このデータセットは、Stability AIから資金提供を受けているドイツの非営利団体LAION(英語版 )によって作成されたものである。
Stable Diffusionモデルは、LAION-5Bの3つのサブセット(laion2B-en、laion-high-resolution、laion-aesthetics v2 5+)から学習している。
このモデルの学習データを第三者が分析したところ、使用したオリジナルの広いデータセットから抽出した1200万枚の画像のうち、サンプルサイズの約47%が100の異なるドメインから取得された画像であり、Pinterest がサブセットの8.5%を占め、WordPressBlogspotFlickrDeviantArtウィキメディア・コモンズ などのウェブサイトがそれに続いていることが確認されたという。」

…とあり、

※「学習データ」に関しては以下の記事が参考になります。

2022年10月19日 07時00分 ソフトウェア 「AI学習用のデータセット作成を大学や非営利団体に任せることで企業は法的責任から逃げている」という批判

2022年12月14日 06時00分 ソフトウェア 画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?

続いて、「学習プロセス」の詳細説明として、
「このモデルは、最初に「laion2B-en」と「laion-high-resolution」から学習し、最後の数回に「LAION-Aesthetics v2 5+」から学習している。
「LAION-Aesthetics v2 5+」は、LAION-Aesthetics Predictor V2が、人間に対してどの程度(その画像が)好きかを尋ねたときに、平均して10点中5点以上をつけると予測した6億枚のキャプション付き画像のサブセットである。
「LAION-Aesthetics v2 5+」サブセットは、低解像度の画像、およびLAION-5B-WatermarkDetectionが80%以上の確率でウォーターマークを検出した画像が除外されている。
最後に行われた学習では、Classifier-Free Diffusion Guidanceを改善するために、さらにテキストの条件づけ(キャプション)が10%削除された。

このモデルの学習には、AWS上の256個のNVIDIA A100(英語版)が使用され、60万米ドルの費用と合計15万のGPU時間が費やされた。」

…とあります、

 

続いて、「制限」として、技術的限界としての、

・画像サイズや動物の四肢の表現が苦手なことなどの限界
・動作させるハードウェアの限界
・英語圏のデータを主に学習しているための生成結果が英語での生成に偏っていること

に関して説明しています。

 

「機能」の項目では、

・テキストプロンプト(単語や文章などの説明や要望などの、文字情報)という入力された情報に対して画像を生成すること
※冒頭の説明の後に「テキストに基づく画像生成(text-to-image)」の項目あり

・他に、参考にしてほしい画像とテキストプロンプトを入力することで、再描画させられること
・さらに、編集したい画像を入力して、入力画像を部分的に変更可能なこと
※冒頭の説明の後に「画像に基づく画像生成(image-to-image)」の項目あり

…などの機能説明が有ります。

 

「用途と論争、訴訟」の項目では、「著作権とデータ倫理」、「ディープフェイク等の問題」、「その他の批判」の項目があり、

「著作権とデータ倫理」では、冒頭と、「ウェブ上の画像のスクレイピング」、「出力画像の生成」、「日本における著作権法の問題」の実例項目があり、

「著作権とデータ倫理」冒頭では、Stability AIの主張と、学習されたデータの権利問題について

「Stable Diffusionは、生成された画像に関する権利を主張しておらず、画像の内容が違法であったり、個人に有害でない限り、モデルから生成されたあらゆる画像の使用権をユーザーに自由に与えている。
Stable Diffusionと他の生成モデルは、著作権のある画像から権利者の同意なしに学習を行っているため、画像の使用に関してユーザーに提供される自由について、所有権の倫理をめぐる論争が引き起こされている。」

…と説明し、続いて、あるジャーナリストの批判として、

「ジャーナリストのナオミ・クライン は生成AI技術と関連企業を厳しく批判しており、「人類史上最大の盗み」「囲い込みと横領を行う機械」であるとしており、「個人的な生および集合的な知的・芸術的遺産の双方を食い物にし、私有化する」としている。つまり、AI企業はインターネット上に公開された人類の知識全体を、製品の中に囲い込んで専売しており、人々の生涯をかけた労働が同意や許可を得ずに、訓練データに使われているというのである。クラインは以下のように述べた。

こんなことが合法であるはずがない。AIモデルを訓練するのに使われたことが判明している著作権保護の素材(この『ガーディアン』紙も含まれる)に関しては何件もの訴訟が申請されており、明白に違法な行為が行われたという主張がそこでなされるだろう。例えば、営利企業が生身の芸術家たちの絵画や写真をStable DiffusionやDALL-E 2のようなプログラムに注ぎ込み、それを使ってまさにその芸術家たちの作品のドッペルゲンガー 版を作成できるようにするなどということが、いったいどうして許されるのだろうか?その利益が芸術家たち自身にだけは還元されないというのに?」

…と、芸術家の立場に立っての批判を紹介しています。

 

「著作権とデータ倫理」の、「ウェブ上の画像のスクレイピング」では、
実際のスクレイピングによって権利を侵害されているケースに対して補償や対応が必要だとしている主張として、

・ハーバード・ビジネス・スクールの機関誌「ハーバード・ビジネス・レビュー」では、ネット上に公開された無数の著作物を訓練データとして利用するStable Diffusionをはじめとする現行の画像生成AIについて、知的財産権を侵害している可能性があるとして、潜在的な法的リスクを指摘。
そして、訓練データが権利者のライセンスを受けていることが望ましく、生成されたコンテンツの出所を示す手段が必要であるとしている。
開発企業はアーティストの権利を尊重すると称して、著作物を訓練データから除外するためのオプトアウトの申請を受け付けている。しかし、そのオプトアウトは知的財産権を保護する責任を権利者に押し付けているとして、オプトアウトよりもオプトイン(事業者がユーザーに広告メールを送信する前に許可を取ること。また、ユーザーが事業者に許可の意思を示すこと)が適切であると批判している。

・写真家・モデル・撮影監督・俳優といった人間の芸術家が、AIを使用した競合他社に対して徐々に商業的価値を失っていくのではないかという懸念を表明している…として、下記の2例を挙げています。

①『名探偵ピカチュウ 』のクリーチャー・デザインに携わったR・J・パーマーは、Stable Diffusionが多くの現役クリエイターの作品を学習データに取り込んでおり、潜在的に彼らの仕事を奪いかねず権利侵害にあたると非難している。
※DALL・E 2など他の画像生成サービスは、現代の風景写真家の作品を学習データから排除するなど、クリエイターとの協調関係に配慮を見せている。

②オレゴン州在住の漫画家サラ・アンダーソンら3人の原告は、2023年1月13日、AIアートの違法性を訴え、Stability AIとStable Diffusionを利用した画像生成サービスを展開するMidjourney、DeviantARTの3社に対して訴訟を提起した。
画像生成AIは、教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており、同意も得ていないため、画像生成AIには倫理的・法的問題が生じている。
アンダーソンは『ワシントン・ポスト』紙の取材に対し、「AIは私の作品を盗んだ」と答えた一方、Stability AI、Midjourney、DeviantARTの3社はいずれも取材を拒否した。

・学者の批判として、下記の2例を挙げています。

①計算機科学者でプリンストン大学 教授のアーヴィンド・ナラヤナンは、「画像生成AIを開発する企業は同意や補償なしに訓練用画像を収集するなど、アーティストに敵対するような方法で開発・デプロイを行っている」とした上で、「特定のアーティストの画風に寄せた画像生成ツールを許容することは、アーティストの労働や視覚的な独自性を明確に流用しているケースのように思える」と述べ、「開発者は、アーティストを訓練用の素材ではなく、パートナーや利害関係者として扱うこともできたはずだ」と画像生成AIの現状に異を唱えた上で、「この現状が必然だったと主張する人物は、企業が責任ある技術開発をできなかったことの言い訳をしているに過ぎない」と結論付けた。

②東京大学は理事・副学長の太田邦史の署名付き文章で、2023年4月3日、全学生・教員向けにMidjourney、Stable Diffusion等の生成AIの利用に関する注意喚起を行った。
画像生成AIが、インターネット上のコンテンツを取り込んで学習し、画像を生成しており、これらの元データの作成者が知らないうちに著作権を侵害されたとして、問題提起を行っている現状を指摘。
将来的に画像生成AIが生み出したコンテンツが訴訟の対象になる可能性に言及した。

・Stable Diffusionの訓練データの収集方法については「データ・ロンダリング」がなされているとの批判を受けている。つまり、提供会社が直接データを収集・利用するのではなく、非営利の研究機関を間に挟むことで、「研究目的」として著作物を収集することができ、著作物の使用に対する対価を払うことなく、商用利用を行っているとされる。

※Stable Diffusionなどの画像生成AIが抱える倫理的・法的問題に対して、
・Adobeは独自の画像生成AIのFirefly をリリースした。これはパブリックドメイン、オープンライセンスおよびAdobe Stockの画像を訓練データとして利用しており、知的財産権を巡る問題を大幅に軽減している。
・Nvidiaも独自の生成AIであるNvidia Picasso をリリースしたが、著作権者に正当な使用料を支払っているとしている。

 

「著作権とデータ倫理」の、「出力画像の生成」では、ストックフォト企業の知的財産権侵害に対する訴訟として、下記の記事があり、

「英国のストックフォト企業であるGetty Imagesも画像生成AIが膨大な量の画像を盗用し、知的財産権を侵害しているとしてStability AIへの損害賠償請求訴訟を提起した。
画像生成AIはアーティストの知的財産である作品をベースに画像を生成するが、その作品の作者には補償されないし、著作権者の許可も得ていないことが問題視されている。」

 

「著作権とデータ倫理」の、「日本における著作権法の問題」では、Stable Diffusionの登場に関連して、日本においては2018年に成立した改正著作権法が問題視されている…として、
弁護士や大学教授が主導した法改正の経緯と問題点を指摘し、権利者の個人や団体(漫画家、イラストレーター、音楽家、俳優、芸能人、出版社など)が懸念を示していることについて触れています。

 

「用途と論争、訴訟」の「ディープフェイク等の問題」の項目では、

Stable Diffusionは生成されるコンテンツが、他の商業生成AIより暴力や性描写などに寛容であることが特徴的であるとして、CEOからの説明として、下記の言説を取り上げています。

「Stability AIのCEOであるEmad Mostaqueは、このモデルが悪用されるのではないかという懸念に対して、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」と説明し、潜在的にはマイナスの影響もあるが、Stable Diffusionの機能を一般人の手に委ねることは、この技術が純粋な利益を提供することにつながると述べている。さらに、Stable Diffusionをオープンにした背景には、クローズドな画像合成AIシステムしか開発してこなかった企業による、このような技術に対する支配と統制を終わらせる意図があると述べている。」

Stable Diffusionが、他の画像生成サービスが禁止している政治的・宗教的にセンシティブな多くのテーマに関する画像の生成を野放しにしているとのTechCrunch の非難に対しては、

「違法なコンテンツは別として、フィルタリングは最小限に抑えられており、どのようにStable Diffusionを使用するかはユーザー次第」とコメントするに留まった…とのことです。

Stable Diffusionは名目上ポルノ生成を抑止するような方策が取られているものの、実際にはそれを回避した性的なコンテンツの生成が可能だが、カリフォルニア大学バークレー校 教授のハニー・ファリドによれば、インターネット上に公開された何億もの画像データを学習する過程で、女性を性的に扱うバイアスが反映されるため、モデルの出力を100%制御することは困難であるとされるとしています。

アメリカのクラウドファンディングサイトのKickstarter で、Stable Diffusionによるポルノの作成を目指す出資プロジェクトが動き出した件では、集めた資金で既存の画像を学習データとして利用することが、多くのアーティストから批判されていることを受け、AIアートに関する条項を変更し、プロジェクトをブロックしたことに触れています。

※上記に関しては、下記の記事参照
アダルト可のAI「Unstable Diffusion」のクラファンが停止される 「健全性守るため」 2022年12月22日 13時30分 公開 [谷井将人,ITmedia]

ディープフェイク に関しては、下記の記述が有ります。

「生成AIの負の側面として、詐欺や思考誘導、世論操作を行う目的で、捏造した顔画像や映像、フェイク音声、フェイク文章といったフェイクメディアを流通させる可能性が懸念されている。すでに国内においてもStable Diffusionを使って捏造された災害画像が拡散する事例もあり、AIを悪用した詐欺や詐称、名誉毀損は現実の脅威となっている。このため国内外で対策のための研究が進められている。」

 

「用途と論争、訴訟」の「その他の批判」として、前回の投稿のMidjourneyの記事でも触れられている、下記の批判が載せられています。

「ナラヤナンは、メディアによる画像生成AIの宣伝に関しても厳しく批判しており、それを過度に擬人化するなど誤解を招くような印象を蔓延させ、誇大広告に加担していると指摘している。また、ナラヤナンは「AI報道で気をつけるべき18の落とし穴」として、AIが人間と同じように学習すると暗示して人間の知能とAIを比較したりすることや、AIを電気の発明や産業革命のような歴史的な大転換に安易になぞらえることを批判している。」

 

 

 

ということで「画像生成AI」をテーマにした投稿の③-1という事で、プチブレイクのきっかけとなったと思われる、「Stable Diffusion」関連のWikipedia情報の要約記事でした。

ここまで読んでいただきありがとうございました。

他に、この後に③-2関連情報(ITmedia)と、③-3関連情報(Gigazine,その他)の記事が続いてあります。

この記事もかなり長いので、全部まんべんなく読まれる方はほとんどいないと思いますが、関連情報の記事の方は、それぞれのニュースサイトの記事のリンクを、発表の時系列で上から下に順番に貼ってあるので、技術的な進化の動向だとか、それに対しての著作者の権利問題の発生などが分かるかと思うので、ご参考までに。

 

次回は、自然言語処理AI(ChatGPT,新しいBing,Bard,Claude)の情報などを紹介したいと思いますので、よろしくお願いします。

Follow me!