ブログ

HOME
ブログ
画像生成AIが身近な存在になる日は近い？ – ①

2023年3月6日 / 最終更新日時 : 2023年3月27日 wsccshane27 ブログ

画像生成AIが身近な存在になる日は近い？ – ①

4か月ぶりの投稿のYNです。
よろしくお願いします。

今月は、「画像生成AIが身近な存在になる日は近い？」という事で、ここ数年ITの速報記事をスクラップしてきたものから、画像生成AIが身近な存在になりつつある感じを、感じ取れそうな記事をネタに、第一部（①）という感じで、少し書きたいと思います。

※本稿作成中、画像生成AIブームの後に、どんな質問にもそれなりに自然な回答をしてくれる「ChatGPT」が登場し、話題をそちらに持っていかれた感が有りますが、一応本稿にも少し情報(記事へのリンクなど)が有りますので、ChatGPTにご興味がある方も、お読みいただければと思います。後日、「ChatGPT」など自然言語処理AI関連情報としてまとまった情報を載せるかもしれません。

まず、本稿で「画像生成AI」と呼ぶものは何かというと、基本的には「文章から画像を生成するAI」です。

AIと呼称されている各システム(アプリケーション)が画像を生成するために、インターネット上の写真やイラストなどの画像のビックデータや、開発者の用意した写真やイラストなどの画像のデータを、
機械学習により解析したものを元データとして利用し、AI使用者などが入力した文章に含まれる単語などを、自然言語処理AIで解析して画像生成に利用し、イラストや写実的な絵を出力するものです。

高度化・多様化し、便利に使えるようになると、イラストレーターや写真家の強力なライバルになり、イラストや写真などの素材提供サイトの運営にも影響があるかもしれません。
AIが将来、人間の仕事を奪うとは語られますが、私は肯定派で合理的に活用して、新たな価値と仕事を生んだほうが、生産的ではないかなと思っています。
もちろん不正利用などのAIの悪用対策は必要だと思いますが、出来るだけ開放的に発展していってほしいと思います。

（…と書いてから、Webサイトつくり隊の担当の職員さんが、WEBサイトデザインのための有料素材サイトを見ていて、画像生成AIで生成したと思われるSFやファンタジー的な写実的なイラストが最近増えてきたとおっしゃられていました。、これも他の、「人間」が制作したと思われるイラストと同じように有料で販売されているというのを聞いて、文章を作っただけでAI画家任せで制作されたものを、人間のデザイナーやグラフィッカーがそれなりの時間をかけて制作されたものと同じくらいの料金で販売するというのは、少し詐欺的だなとは思いました。）

今回、「画像生成AI」をネタにしようと思ったのは、下記の記事を参考に、自分のスマホのLINEで手軽に生成できて、その質の高さを実感したからです。

画像生成AI「Stable Diffusion」がLINEのチャットbotに　九工大の学生が作成　日本語にも対応　2022年08月29日 17時29分公開　[松浦立樹，ITmedia]

本稿では、IT速報サイトの記事から得た情報から、画像生成AIの進化の具合を感じ取れる投稿になればと思いながら、書き進めたいと思います。

まず、画像生成AIを開発している組織やAIについての情報として、よく記事として取り上げられる、米AI研究企業のOpenAI関連情報です。

大まかな項目として、下記の項目が有ります。

①米AI研究企業の「OpenAI」のWikipedia情報について

②自然言語処理モデル「GPT-3」関連記事(ITmedia)

③自然言語処理モデル「GPT」関連記事(Gigazine)

④画像生成AI「DALL・E 2」関連記事(ITmedia)

⑤画像生成AI「DALL-E」関連の派生情報(ITmedia)

◆

①米AI研究企業の「OpenAI」のWikipedia情報について

●OpenAI　：　テスラ　という電気自動車メーカーの経営者として、SpaceX　という宇宙開発や衛星通信サービス事業会社の経営者として、最近ではTwitter　も買収した、世界長者番付の常連として有名なイーロン・マスク　をはじめとする有力な実業家・投資家が参加していることから注目を集める、2015年12月11日に設立した、人工知能を研究する非営利団体で、人類全体に、害をもたらすよりは、有益性があるやりかたで、オープンソースと親和性の高い人工知能を、注意深く推進することを目的として掲げている。
…日本のWikipediaより要約加筆

●DALL-E　：　上記研究団体のOpenAIが、自然言語処理と画像生成を組み合わせたAI「DALL・E」を発表。人間でも見分けが付かないほど高精度な文章を生成するAI「GPT-3」のパラメータを使用し、文章からイラストや写真を作り出すことができる。
…日本のWikipediaより

●GPT-3　：　上記研究団体のOpenAIが研究開発している自然言語処理AIで、Generative Pretrained Transformer 2 (GPT-2) の後継モデル。
Generative Pretrained Transformer 3 (GPT-3) は、教師なしの Transformer 言語モデルで、2020 年 5 月に初めて紹介。
OpenAI によると、GPT-3 には 1,750 億個のパラメータが含まれ、GPT-2（パラメータ数 15 億個）より 2 桁大きい。
OpenAI は、GPT-3 は特定の「メタ学習」タスクで成功すると述べた。単一の入出力ペアの目的を一般化できる。この論文は、英語-ルーマニア語間、および英語-ドイツ語間の翻訳および言語間転移学習の例を示している。
GPT-3 のベンチマーク結果は、GPT-2 のそれと比較して劇的に改善。 OpenAI は、そのような言語モデルのスケールアップは、予測言語モデルの基本的な機能制限に近づいたり遭遇したりする可能性があると警告した。
トレーニングに要した計算量は、GPT-2 では数十ペタフロップ/秒・日だったのに対し、GPT-3 では、数千ペタフロップ/秒・日を要した。
GPT-2 と同様、GPT-3 の完全にトレーニングされたモデルは、悪用される可能性があるという理由ですぐには一般公開されなかった。 OpenAI は、2 か月の無料プライベートベータ版の提供後に有料クラウド API を介したアクセスを許可する予定だった。
GPT-3が書いたことを伏せたオンライン記事がニュースサイトで、ランキング1位を獲得するなど、人間並みに自然な文章を実現している。ただし、GPT-3を含む「言語AI」の言語処理は「定量的アプローチ」であり、人間の言語能力とは根本的に異なる。
詳細は「自然言語処理#処理内容とその限界　」を参照。
また、将来的には「自然言語を用いたプログラミング」が可能になることも期待されている。
…日本のWikipediaより

◆

②自然言語処理モデル「GPT-3」関連情報(ITmedia)

●2021年11月19日、大規模自然言語処理モデル「GPT-3」、APIの人数制限を撤廃　誰でもすぐに利用可能に
・言語モデル「GPT-3」、APIの人数制限を撤廃　誰でもすぐに利用可能に　2021年11月19日 19時03分公開　[松浦立樹，ITmedia]

「米AI研究企業のOpenAIは11月19日（現地時間）、大規模自然言語処理モデル「GPT-3」のAPIを利用する際の人数制限を撤廃し、誰でもすぐに利用できるようにしたと発表した。
ガイドラインを更新し、ヘイトスピーチやアダルトコンテンツについては使用を禁止。コンテンツフィルターなど安全装置を設けた上で人数制限を撤廃した。
同社は「何万人もの開発者が、GPT-3を通じてさまざまなAIモデルを活用している。APIへのアクセスを開放することで、より多くの開発者が有用なアプリや未解決な問題に、AIを使った創造的な方法を見つけられると信じている」としている。
GPT-3は、イーロン・マスク氏が共同会長を務める非営利のAI研究企業であるOpenAIが開発した大規模自然言語処理モデル。文章の次の言葉を予測する訓練を重ねており、少ない学習量で人間が書いたような文章を生成できる。関数名やコメントからコードを自動補完する米GitHubのAIプログラミング機能「GitHub Copilot」の基盤システムなどにも使われている。
OpenAIは2020年6月にAPIとして外部からの利用を可能にしたが、使用には人数制限をかけていた。」

…とのことで、すでに高く評価された自然言語処理AIとして発表されていた、大規模自然言語処理モデル「GPT-3」が一般に開放されました。

●2022年12月01日、AI言語モデル「ChatGPT」発表。テスト期間中としており、無料で利用できる。
・「幸せになるには？」に答えてくれるAI「ChatGPT」　日本語でさまざまな質問に回答　Twitterでも話題　2022年12月01日 18時38分公開　[松浦立樹，ITmedia]

「　米AI研究企業OpenAIは12月1日（現地時間）、対話のためのAI言語モデル「ChatGPT」を発表した。テキストで質問を投げかけることで、AIがその回答を表示する。日本語にも対応しており、利用にはOpenAIアカウントが必要。現在はテスト期間中としており、無料で利用できる。
記者も早速利用してみた。「ChatGPTとはなんですか？」と入力してみたところ、ChatGPTはすぐに以下のような回答を示した。
「ChatGPTは、OpenAIが開発した対話型自然言語生成モデルです。このモデルは、対話文や会話文を入力として受け取り、それに対して自然な形で返答することができます。ChatGPTは、大規模なトレーニングデータセットを用いて訓練されており、人間に近い形で会話を行うことが可能です」（原文ママ）
ChatGPT自身が説明してくれたように、ChatGPTは会話形式に最適化された自然言語生成モデルだ。質問に対して回答することの他、間違いを認めることや間違った前提に異議を申し立てること、不適切な要求を拒否することなどができる。自然言語モデル「GPT-3」のマイナーチェンジ版である「GPT-3.5」シリーズを微調整し、開発しているという。
「幸せになるにはどうすればいいですか？」のような答えのない質問にもChatGPTは回答してくれる。内容は以下の通りだ。
「幸せを感じるには、様々な方法があります。まず、自分自身が何が幸せかを知ることが大切です。そして、そのような幸せを感じることができるような活動や場所、人との関係を作ることが大切です。また、私たちの中には、無意識のうちに自分を不幸にしている思考や行動があることもあります。こうした思考や行動を見つけ出し、変えることも、幸せを感じるために重要です」（原文ママ）」

…とのことで、記事内容は上記以外にも、回答不能のケース、「Python関数を書いて」と要求したユーザーには、その関数のソースコードとその動作を返答したケースなどが紹介されています。

●2022年12月02日、AI言語モデル「ChatGPT」に、ITmediaのライターが50の質問をぶつけてみた
・「なぁAI……人生相談があるんだけど」　なんでも答えてくれる「ChatGPT」に50の質問ぶつけてみた　2022年12月02日 11時30分公開　[谷井将人，ITmedia]

「人生何かといろいろあるわけで、どんな人でもさまざまな悩みを抱えながら日々生きているだろう。誰かに相談できればいいのだが……そんなあなたにちょうどいいAIがある。
怪しいものではない。AI研究機関である米OpenAIが12月1日（現地時間）に、AIチャットbot「ChatGPT」を公開した。現在はテストとして無料提供中。質問すればAIが答えてくれるのだが、これが結構参考になる。
今回はこのAIに「人生相談」「子供の答えにくい質問」「論理クイズ」「数学未解決問題」など、50の質問をしてみた。どんな答えを示してくれるのか見てみよう。
なお、質問内容はフィクションであり、実在の人物、団体などとは一切関係ありません。」

…とあり、上記以降に50の質問内容と、AIの回答内容が書かれています。

●2022年12月06日、AI言語モデル「ChatGPT」公開6日目で100万ユーザー突破
・ChatGPT、公開6日目で100万ユーザー突破　2022年12月06日 13時31分公開　[ITmedia]

「11月30日（米国時間）に公開されたAIチャットbot「ChatGPT」のユーザー数が、5日時点で100万人を突破したと、このbotを開発した米OpenAIのサム・アルトマンCEOがツイートした。
ChatGPTは、テキストで質問を投げかけるとAIがその回答を表示するサービス。プレビュー期間である現在は、OpenAIのアカウントがあれば、誰でも無料で利用できる。日本語でも使えることから、日本でも話題だ。
アルトマン氏は「ずっと無料で使えますか？」という質問に対し、「どこかの段階で有料にしなければならないだろう。（インフラの）コストは涙が出るほどかかっている」と答えた。
イーロン・マスク氏の「チャット当たりの平均コストは？」という質問には「おそらく1桁セントくらいだ。より正確にコストを割り出そうとしており、また、最適化にも取り組んでいる」と答えた。」

…とのことでした。

◆

③自然言語処理モデル「GPT」関連情報(Gigazine)

●2019年02月21日 21時00分　メモ　OpenAIが「危険すぎる」として文章作成AIの論文公開を延期したのは間違いだったと研究者が指摘

●2020年06月18日 15時00分　サイエンス　「あまりにも危険過ぎる」と危険視された文章生成ツール「GPT-2」の技術で画像を自動で生成することに成功

●画像を半分入れたら残りを自動生成　OpenAI、文章自動生成モデルの画像版「Image GPT」開発　Innovative Tech　2020年07月06日 15時25分公開　[山下裕毅，ITmedia]

●2020年06月01日 11時43分　メモ　あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開

●2020年07月29日 08時00分　ソフトウェア　自然なブログを書いてしまうほど超高精度な言語モデル「GPT-3」はどのように言葉を紡いでいるのか？

●2020年09月23日 10時02分　メモ　Microsoftが世界トップクラスの言語モデル「GPT-3」の独占的ライセンスを取得

●2020年10月08日 20時00分　ソフトウェア　文章生成AI「GPT-3」がRedditで1週間誰にも気付かれず人間と会話していたことが判明

●2022年12月07日 17時40分　レビュー　Google検索をするとChatGPTの回答も表示してくれるブラウザ拡張機能「ChatGPT for Google」

●2022年12月23日 12時30分　ネットサービス　ChatGPTのリリースでGoogleは「コードレッド」を宣言、AIチャットボットが検索ビジネスにもたらす脅威に対応するためにチームを再割り当て

●2023年01月20日 23時00分　レビュー　GoogleやBingの検索結果にChatGPTを表示させる拡張機能「ChatGPT for Search Engines」

◆

④画像生成AI「DALL・E 2」関連記事(ITmedia)

●2022年4月6日、文章から画像を生成する「DALL・E 2」生成結果発表
・最新AIの描く絵が「ヤバすぎ」「個展開ける」と話題　文章から画像を生成する「DALL・E 2」、米OpenAIが発表　2022年04月07日 13時29分公開　[松浦立樹，ITmedia]

「米AI研究企業OpenAIは2022年4月6日（現地時間）、文章から画像を生成するAI「DALL・E 2」を発表した。
2021年1月に同社が発表した「DALL・E」の後継に当たるAIで、生成した画像を掲載するデモサイトも公開している。
Twitter上ではAIが生成した画像のクオリティーの高さに「最新のAIやばすぎる」「個展開ける」など、驚きの声が出ている。」

…とのことで、生成のメカニズムなどに関しても触れている記事で、まだ研究企業OpenAI内での2022年4月6日発表の生成結果でした。

●2022年7月20日、文章から画像を生成する「DALL・E 2」β版公開
・AI画家「DALL・E 2」一般公開へ　商用利用も可能に　悪用、差別防止機能を搭載　2022年07月21日 15時15分公開　[ITmedia]

「AI研究企業OpenAIは7月20日（現地時間）、文章から画像を生成するAI「DALL・E 2」のβ版を公開し、事前登録していたユーザーの招待を始めた。招待人数は100万人。利用は基本無料で、生成した画像は商用利用も許可する。
プレスリリースのアートワークもDALL・E 2作
利用は毎月ユーザーに配布するクレジットを消費する形で回数を調整。クレジットは販売も行うため、多く利用したいユーザーは追加購入できる。画像の生成の他に、生成画像やユーザーがアップロードした画像を自然言語による指示で編集できる機能や、1枚の画像から複数のバリエーションを生成する機能などを備える。
悪用防止のため、有名人や政治家の似顔絵、実在の人物の写実的な画像の他、暴力的、性的、政治的な画像は生成できないようブロックする。差別防止に向けては「CEO」「教師」など、人種や性別を特定しない指示で画像を生成すると、さまざまな属性の人の画像を生成するようにした。」

…とのことで、とりあえず事前登録ユーザーなど100万人に、フリーミアム　かつ、悪用防止機能付き公開という形で、β版が2022年7月20日公開されました。

●2022年9月28日、文章から画像を生成する「DALL・E 2」β版を悪用防止技術を構築し、誰でも利用可能に
・AI画家「DALL・E 2」、ウェイティングリスト削除で誰でもすぐ利用可能に　2022年09月29日 10時17分公開　[ITmedia]

「米AI研究企業OpenAIは9月28日（現地時間）、文章から画像を生成するAI「DALL・E 2」のβ版に設けていたウェイティングリストを削除したと発表した。誰でもサインアップしてすぐに使えるようになった（有料）。
現在、150万人以上のユーザーが既にDALL・Eを使って1日当たり200万点以上の画像を作成しているという。
APIを介しての利用はまだできないが、現在テスト中だ。
AI生成画像については多様な問題もあるが、OpenAIは「ここ数カ月でコンテンツポリシーに違反するような性的や暴力的なコンテンツの生成を拒否するフィルターを強化し、悪用防止のための技術を構築した」としている。」

…とのことで、β版でユーザー数制限を掛けていたのをやめて、悪用防止技術を構築し、β版を2022年9月28日誰でも利用可能にしました。

●2022年10月12日、MicrosoftのAzure からOpenAIのAPIにアクセスできるサービス発表
・「Azure OpenAI Service」でAI画家「DALL・E 2」利用が可能に　2022年10月13日 02時47分公開　[佐藤由紀子，ITmedia]

「米Microsoftは10月12日（現地時間）、オンラインイベント「Microsoft Ignite 2022」で、AzureからOpenAIのAPIにアクセスできるサービス「Azure OpenAI Service」で、文章から画像を生成するAI「DALL・E 2」も利用できるようにすると発表した。
MicrosoftはOpenAIに出資しており、Dall・E 2は同社がOpenAI専用に構築したAzureでホストされているスーパーコンピュータでトレーニングした。
Microsoftはまた、DALL・E 2採用の新たな消費者向けアプリ「Microsoft Designer」とBingの「Image Creator」も発表した。」

…とのことで、OpenAIに出資しているMicrosoftのクラウドサービスのAzure内のサービスとして利用できるようにすると、2022年10月12日発表されました。

●2022年10月25日、OpenAIの画像生成AIをShutterstock内のツール「Shutterstock.AI」として統合・利用できるようにすると発表
・ストック素材大手Shutterstock、「DALL・E 2」ツール提供へ　学習用画像貢献者には報酬　2022年10月26日 11時23分公開　[ITmedia]

「米ストック素材大手Shutterstockは10月25日（現地時間）、米AI研究企業OpenAIとの提携を拡大し、OpenAIの画像生成AIシステム「DALL・E 2」をShutterstockのコンテンツと統合し、ユーザーが利用できる画像生成AIツール「Shutterstock.AI」を提供すると発表した。また、AIモデルの学習に使うコンテンツを提供するアーティストに報酬を提供するフレームワークを構築したとも発表した。
ShutterstockのコンテンツとしてDALL・E 2で生成した画像を提供するのではなく、ユーザーがShutterstock.AIでテキストから画像を生成していくサービスだ。
アーティストへの報酬システムについては、「アーティストの貢献に報いるためのファンドを立ち上げる」としているが、仕組みや報酬体系の詳細はまだ不明。「AIモデルの開発に貢献した作品のアーティストに追加の報酬を提供し、また、アーティストの知財が使われた場合、ロイヤリティの形でそのアーティストに補償することを目指している」という。
DALL・E 2やStable Diffusionなどの画像生成AIの精度が高まるにつれ、AIの学習用にコンテンツをWebから無断でスクレイピングされたアーティストからの批判も高まっている。
Shutterstockは2021年のOpenAIとの提携の下、DALL・E 2の学習のためにコンテンツをライセンス供与してきた。OpenAIのサム・アルトマンCEOは「ShutterstockのデータはDALL・E 2のトレーニングに不可欠だった。ShutterstockがAPIを介してDALL・E 2をユーザーに提供できるのを嬉しく思う。（中略）AIはアーティストのクリエイティブワークフローに不可欠な要素になるだろう」と語った。」

…とのことで、3億5000万点以上のロイヤルティフリーのストックフォト、ベクター画像、イラストをインターネット経由で定額課金提供している企業Shutterstockで、OpenAIの画像生成AIをShutterstock内のツール「Shutterstock.AI」として統合・利用できるようにすると、2022年10月25日発表されました。また、ShutterstockのコンテンツをOpenAIのDALL・E 2の学習用に供与していた関係で、Shutterstock内のアーティストの作品が使われた場合、そのアーティストに補償することを目指しているとのことです。

●2022年11月03日、画像生成AI「DALL・E 2」のAPI提供開始
・画像生成AI「DALL・E 2」のAPI提供開始　アプリに機能搭載可能に　2022年11月04日 12時57分公開　[ITmedia]
「米AI研究企業OpenAIは11月3日（現地時間）、文章から画像を生成するAI「DALL・E 2」のAPI提供を開始したと発表した。これにより、アプリ開発者はアプリにAI画像生成機能を簡単に統合できるようになる。
DALL・E 2のAPIを使うには、OpenAIへの登録と、ジェネレータにアクセスするためのプライベートAPIキーが必要だ。また、画像の解像度に応じて画像ごとに料金がかかる。1024×1024ピクセル（これが最大）の場合は1画像当たり2セント、512×512ピクセルでは1.8セント。」

…とのことで、有料でアプリへの機能統合が可能となる、画像生成AI「DALL・E 2」のAPIの提供が、2022年11月03日発表されました。

もうすでに画像生成AIを利用したWebサービスやアプリは出回っていて、身近になりつつあると感じている方もおられるかと思われます。

●「DALL・E 2」で生成される画像に関しては各記事にアクセスしたり、下記の米AI研究企業OpenAIの「DALL・E 2」公式サイトで、確認してみてください。

◆

⑤画像生成AI「DALL-E」関連の派生情報(ITmedia)

画像生成AIが独自の“AI語”を生み出した？　「DALL-E 2」を巡って、米テキサス大学が論文発表　2022年06月01日 18時01分公開　[松浦立樹，ITmedia]

画像生成AIで漫画っぽい物語が作れるモデル「StoryDALL-E」　Innovative Tech　2022年09月26日 08時00分公開　[山下裕毅，ITmedia]

画像生成AIが“ロボットの動き”を生成　英ICL「DALL-E-Bot」開発　Innovative Tech　2022年10月17日 08時00分公開　[山下裕毅，ITmedia]

まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？　新連載　清水亮の「世界を変えるAI」　2022年10月26日 14時27分公開　[清水亮，ITmedia]

ということで「画像生成AI」をテーマにした投稿の「①」という事で、画像生成AIの盛り上がりのきっかけとなったと思われる、米AI研究企業OpenAI関連情報でした。

ここまで読んでいただきありがとうございました。

次回の「画像生成AIが身近な存在になる日は近い？ – ②」では、扱いやすい画像生成AIとして、「Midjourney」「Stable Diffusion」の情報などを紹介したいと思いますので、よろしくお願いします。