Technology • 2023-08-09 09:52:51

画像生成AIの講習会に参加してきました。

ホームページの画像や、プレゼンテーションのイラストなど画像生成AIを使って思い通りに近い形で生成する方法について紹介する勉強会です。画像生成AIでopen sourceのStable DiffusionとAdobe fireflyを中心にプロンプトの与え方による画像生成の方法とビジネスに使う上で気を付けるべき点を伺いました。商用ベースで使う場合は著作権の心配がないfireflyがいいですが、生成と利用にまだまだ制約が多い。Stable Diffusionも使い方によっては使えるとのこと。Stable Diffusionのローカル構築の話も伺いました。Stable Diffusionのプロンプトであるキーワードの与え方とオプションの意味がわかったので自分でこれから試せるでしょう。講習講師と企画されたDXオープンラボに感謝です。

【AI技術勉強会】画像生成AIのビジネス活用

内容

StableDiffusionの基本的な使い方
プロンプトの基本
モデルの選択
シード値指定と画質調整
img2imgの使い方
LoRaの基本と利用方法
画像生成AIと著作権の注意点
Fireflyの特徴と使い方
Photoshopにおけるジェネレーティブ塗りつぶしの活用
Canvaにおけるプレゼン画像の生成

講師伊本貴士氏（メディアスケッチ株式会社代表取締役サイバー大学准教授）

開催概要

日時：令和5年8月8日（火）18:00～20:00
定員：（会場参加のみ）12名
会場：福井県産業情報センター１階　ふくいＤＸオープンラボ
主催：（公財）ふくい産業支援センターふくいDXオープンラボ

詳細内容

（講義中に取ったメモなので間違えているかもしれません。一部ネット情報で補っています。）

StableDiffusion :
- オープンソース
- ネット上の画像から画風を学んでいる草分け的存在
- 著作権に関する問題を抱えている。EU圏内で使う場合注意が必要（規制強化の動き）
Adobe Firefly：
- 著作権の心配のない画像生成AI（Adobeが補償）
- まだ商用利用できない
Canva：
- プレゼン生成サービスで絵が欲しい時に便利

Stable Diffusion

stable diffusionの歴史とか原理とかの説明が薄かったので、wikipedia見てみました。それによると知っておけばいいのは下記の通りでした。

2022年に公開されたディープラーニング（深層学習）のtext-to-imageモデルである。〜

ミュンヘン大学のCompVisグループが開発した潜在拡散モデルであり、深層生成ニューラルネットワークの一種である。〜

教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており同意を得ているわけではないので、著作権法に違反するのかどうか、フェアユースに該当するのかどうか、倫理的に適切であるのかといった法的・倫理的な論争が生じており、提供元のStability AIに対して複数の訴訟が提起されている。

Dream Studio

Dream StudioはStability AI社が開発・運営する画像生成AI・Stable Diffusionの有料サービスでWEBサービスでブラウザだけでできます。

Stable Diffusionの使用例

GCP（Google Cloud Platform）やグラフィックボードを搭載したローカルに構築して運用
Promptで使うキーワードだけでなく、Negative promptで使わないキーワードを入れることで自分のイメージに寄せられる。
キーワードはコンマ区切りで入れる。
Promptの入れ方に一般解はない。試行錯誤が必要。
写真風、イラスト風、コミック風など選べる。
端が切れたら‘full body’を入れるとよい。
文字はダメダメ。後でレタッチした方がいい。
文字が出る場合がある。→ NPにTEXTを追加するとなくなる。
画像サイズ：５１２ｘ５１２がデフォルトだが、６４０ｘ４８０にするといい。ネット上に一番多い画像のアスペクト比だから。
CFGスケールが大きいとうまくいかない。
背景、風景は得意
機能拡張：LoRaファイルはCivitaiやHugging Faceなどから入手することができる。
- 例）magicMIXはアジア系人間ができる
LoRA（Low-Rank Adaptation）は10数枚の少ない画像を用いて追加学習させることにより微調整することができる仕組み

StableDiffusionの具体的設定

sampling stepsは修正の繰り返し回数で、多いほど綺麗になるが時間がかかる。
seed値：最初の乱数のseed。
Promptで生成を探す方法（デフォルトでよい。試行錯誤的。）
seed値を固定してPromptを生成
common+数字で強調度合いを指定できる。
- 例）P:(on the road).1.3, NP:(worst quality).2
keywordは５０ぐらい入れても大丈夫。これくらい入れるといい感じになる。

画質調整の方法

Prompt matrix（プロンプトやパラメーターを変えるとどういう差が出るか一目でわかる）：
- 一番最後に入れる
- Positive/Negativeで “|”で区切って入れる。
- 例）word-A|word-B（
- 例）word-A|word-B|word-C (2x2になる)
xyz plot:
- 特定の値を比較したい時に使う
- 例）x: sampling steps, value:10,40,80
sampling method:
- 人を描くのだったらこれがいいとかがある。やってみないとわからない。
- Euler aが無難
Prompt order:
- keywordの順番の入れ替え

Stable Diffusionのローカル（Stable Diffusion Web UI）の構築

Open source (RTX3500?以上のGPUが必要)でローカルに構成できる
拡張機能はローカルでのみ使える(LoRa) →civitAIサイトが有名（廃墟を作る、グラスボトル）→キーワードを追加する(bottle, in glass bottleとか)
LoRa:Low-Rank Adaptation ものすごく少ない計算量で追加学習が可能な手法
Google Cloud PlatformでStable Diffusion Web UIを利用できる
GCP上ででは手動で止める必要がある。課金され続ける。

Adobe Firefly

月額４０００円のユーザ向け
UIは簡単だが細かな調整ができない。
日本人とか、人間は苦手（データが少ないのだろう）
ピクセルアートが作れる
英語の方がいい見たい
著作権をクリアしているのが安心できる

photoshopの次期バージョン

切れた写真でも画像補完してくれる（デモを見せてもらった）
プレゼン資料の写真を4:3→16:9にするときにいい
人や物を追加するのが簡単
まだAdobeのロゴがつき商用利用ができない（ベータバージョンだから）

Canva

プレゼンのWEBサービスにtext2imageの機能がある
無料会員月５０枚
著作権問題は公式見解はない
ロゴの作成は禁止
販売印刷禁止

Midjourny / DALL・E2

Open AIが提供するDALL・E 2は、自然言語による記述からリアルな画像やアートを作成できるAIシステム
月５０００円ぐらい

著作権について

（ニュースの通りの情報です。総務省のコメントがちょっとわからなかった。）

文化庁：画風は著作権に違反しない
総務省：- 〜〜〜〜（聞き取れず）〜〜〜〜〜　無断利用の可能性がある。
EU圏：規制の方向（感情論はわかるが、具体的規制方法は難しいだろうとのこと）

Article Info

created: 2023-08-09 09:52:51
modified: 2025-02-07 18:21:10
views: 1073
keywords: AI• 画像生成AI

Articles

移住 •2023-06-30 •848 view

toriR blog