toriR blog
画像生成AIの講習会に参加してきました。
ホームページの画像や、プレゼンテーションのイラストなど画像生成AIを使って思い通りに近い形で生成する方法について紹介する勉強会です。画像生成AIでopen sourceのStable DiffusionとAdobe fireflyを中心にプロンプトの与え方による画像生成の方法とビジネスに使う上で気を付けるべき点を伺いました。商用ベースで使う場合は著作権の心配がないfireflyがいいですが、生成と利用にまだまだ制約が多い。Stable Diffusionも使い方によっては使えるとのこと。Stable Diffusionのローカル構築の話も伺いました。Stable Diffusionのプロンプトであるキーワードの与え方とオプションの意味がわかったので自分でこれから試せるでしょう。講習講師と企画されたDXオープンラボに感謝です。【AI技術勉強会】画像生成AIのビジネス活用
内容
StableDiffusionの基本的な使い方
プロンプトの基本
モデルの選択
シード値指定と画質調整
img2imgの使い方
LoRaの基本と利用方法
画像生成AIと著作権の注意点
Fireflyの特徴と使い方
Photoshopにおけるジェネレーティブ塗りつぶしの活用
Canvaにおけるプレゼン画像の生成
講師 伊本 貴士 氏 (メディアスケッチ株式会社 代表取締役 サイバー大学 准教授)
開催概要
- 日時:令和5年8月8日(火)18:00~20:00
- 定員:(会場参加のみ)12名
- 会場:福井県産業情報センター 1階 ふくいDXオープンラボ
- 主催:(公財)ふくい産業支援センターふくいDXオープンラボ
詳細内容
(講義中に取ったメモなので間違えているかもしれません。一部ネット情報で補っています。)
StableDiffusion :
- オープンソース
- ネット上の画像から画風を学んでいる草分け的存在
- 著作権に関する問題を抱えている。EU圏内で使う場合注意が必要(規制強化の動き)
Adobe Firefly:
- 著作権の心配のない画像生成AI(Adobeが補償)
- まだ商用利用できない
Canva:
- プレゼン生成サービスで絵が欲しい時に便利
Stable Diffusion
- stable diffusionの歴史とか原理とかの説明が薄かったので、wikipedia見てみました。それによると知っておけばいいのは下記の通りでした。
2022年に公開されたディープラーニング(深層学習)のtext-to-imageモデルである。〜
ミュンヘン大学のCompVisグループが開発した潜在拡散モデルであり、深層生成ニューラルネットワークの一種である。〜
教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており同意を得ているわけではないので、著作権法に違反するのかどうか、フェアユースに該当するのかどうか、倫理的に適切であるのかといった法的・倫理的な論争が生じており、提供元のStability AIに対して複数の訴訟が提起されている。
Dream Studio
- Dream StudioはStability AI社が開発・運営する画像生成AI・Stable Diffusionの有料サービスでWEBサービスでブラウザだけでできます。
Stable Diffusionの使用例
- GCP(Google Cloud Platform)やグラフィックボードを搭載したローカルに構築して運用
- Promptで使うキーワードだけでなく、Negative promptで使わないキーワードを入れることで自分のイメージに寄せられる。
- キーワードはコンマ区切りで入れる。
- Promptの入れ方に一般解はない。試行錯誤が必要。
- 写真風、イラスト風、コミック風など選べる。
- 端が切れたら‘full body’を入れるとよい。
- 文字はダメダメ。後でレタッチした方がいい。
- 文字が出る場合がある。→ NPにTEXTを追加するとなくなる。
- 画像サイズ:512x512がデフォルトだが、640x480にするといい。ネット上に一番多い画像のアスペクト比だから。
- CFGスケールが大きいとうまくいかない。
- 背景、風景は得意
- 機能拡張:LoRaファイルはCivitaiやHugging
Faceなどから入手することができる。
- 例)magicMIXはアジア系人間ができる
- LoRA(Low-Rank Adaptation)は10数枚の少ない画像を用いて追加学習させることにより微調整することができる仕組み
StableDiffusionの具体的設定
- sampling stepsは修正の繰り返し回数で、多いほど綺麗になるが時間がかかる。
- seed値:最初の乱数のseed。
- Promptで生成を探す方法(デフォルトでよい。試行錯誤的。)
- seed値を固定してPromptを生成
- common+数字で強調度合いを指定できる。
- 例)P:(on the road).1.3, NP:(worst quality).2
- keywordは50ぐらい入れても大丈夫。これくらい入れるといい感じになる。
画質調整の方法
- Prompt
matrix(プロンプトやパラメーターを変えるとどういう差が出るか一目でわかる):
- 一番最後に入れる
- Positive/Negativeで “|”で区切って入れる。
- 例)word-A|word-B(
- 例)word-A|word-B|word-C (2x2になる)
- xyz plot:
- 特定の値を比較したい時に使う
- 例)x: sampling steps, value:10,40,80
- sampling method:
- 人を描くのだったらこれがいいとかがある。やってみないとわからない。
- Euler aが無難
- Prompt order:
- keywordの順番の入れ替え
Stable Diffusionのローカル(Stable Diffusion Web UI)の構築
- Open source (RTX3500?以上のGPUが必要)でローカルに構成できる
- 拡張機能はローカルでのみ使える(LoRa) →civitAIサイトが有名(廃墟を作る、グラスボトル)→キーワードを追加する(bottle, in glass bottleとか)
- LoRa:Low-Rank Adaptation ものすごく少ない計算量で追加学習が可能な手法
- Google Cloud PlatformでStable Diffusion Web UIを利用できる
- GCP上ででは手動で止める必要がある。課金され続ける。
Adobe Firefly
- 月額4000円のユーザ向け
- UIは簡単だが細かな調整ができない。
- 日本人とか、人間は苦手(データが少ないのだろう)
- ピクセルアートが作れる
- 英語の方がいい見たい
- 著作権をクリアしているのが安心できる
photoshopの次期バージョン
切れた写真でも画像補完してくれる(デモを見せてもらった)
プレゼン資料の写真を4:3→16:9にするときにいい
人や物を追加するのが簡単
まだAdobeのロゴがつき商用利用ができない(ベータバージョンだから)
Canva
- プレゼンのWEBサービスにtext2imageの機能がある
- 無料会員月50枚
- 著作権問題は公式見解はない
- ロゴの作成は禁止
- 販売印刷禁止
Midjourny / DALL・E2
Open AIが提供するDALL・E 2は、自然言語による記述からリアルな画像やアートを作成できるAIシステム
月5000円ぐらい
著作権について
(ニュースの通りの情報です。総務省のコメントがちょっとわからなかった。)
文化庁:画風は著作権に違反しない
総務省:- 〜〜〜〜(聞き取れず)〜〜〜〜〜 無断利用の可能性がある。
EU圏:規制の方向(感情論はわかるが、具体的規制方法は難しいだろうとのこと)
最近の風潮
- 画像生成AIをSNSで上げると、これを反対している人から攻撃される可能性が高いので気をつけた方がいい。
- 写真コンテストは見破られないだろう(ドイツの事例)
以上です。