カスタムモデルのトレーニングのベストプラクティス

最終更新日 : 2026年1月15日

カスタムモデルを効果的に準備し作成するためのベストプラクティスについて学びます。

最適なユースケースの選択

ユースケース

高評価

避ける

ライフスタイルフォト

  • 鮮明で焦点の合った人物
  • 自然な照明と自然な表情
  • 多様なポーズと構成
  • シンプルまたは柔らかくぼかした背景
  • ぼやけたまたはピクセル化された画像
  • 過度なフィルターや極端な色調補正
  • 混雑したシーンや気が散る背景
  • 顔が小さすぎてはっきりと見えないグループ写真

人物写真

  • 鮮明で十分な照明が当たるクローズアップ写真と中間距離の写真
  • 様々なポーズ、表情、衣装
  • 一貫した照明と環境
  • すっきりしたまたは柔らかくぼかした背景
  • 顔が小さすぎるか部分的にぼやけている
  • 濃い影や過度な照明
  • 類似したショットが多すぎる
  • ぼやけた、または低品質な画像

静物写真

  • 均等で調和の取れた照明と影
  • 一貫性のあるスタイルとカラーパレット
  • 様々な構成と配置
  • メインの被写体に焦点がしっかり合っている
  • 低品質またはぼやけた画像
  • ロゴやパッケージのある商品写真
  • 注意を散らす小物や背景
  • 無関係または主題から外れた被写体

イラストのキャラクター

  • 正確な解剖学的構造とプロポーション
  • 一貫性のあるスタイルとレンダリングの品質
  • 多様なポーズと表情
  • 視覚的な雑然さのない明確なディテール
  • 低品質または未完成のイラスト
  • 一貫性のないスタイルやレンダリング
  • ポーズや遠近法のバリエーションの不足
  • 注意を散漫にする背景や無関係な要素

図像

  • 明確で一貫性のあるアイコンスタイル
  • 中程度~高度の複雑さのデザイン
  • 一貫性のある照明とカラーパレット
  • すっきりとした、オブジェクト中心の構成
  • 低品質またはぼやけたアイコン
  • 無関係または主題から外れたコンセプト
  • 一貫性のないスタイルやレンダリング手法
  • 過度に具体的な色やデザイン要素

イラストレーション

  • 一貫性のあるスタイルとカラーパレット
  • バランスの取れた構成とビジュアル階層
  • 不要な乱雑さがなく被写体の焦点がはっきりと合っている
  • 構成、遠近法、およびフレーミングのバリエーション
  • 低解像度またはぼやけたアートワーク
  • 一貫性のないスタイルやテクニックの混在
  • 複雑な背景や相互作用、または人物のグループ
  • 無関係または主題から外れたビジュアル

3D グラフィックス

  • 一貫した遠近法とプロポーション
  • 統一されたスタイル、ライティング、レンダリングの品質
  • 様々な構成とアングル
  • 明確で整然としたデザイン
  • 低品質または未完成のレンダリング
  • 一貫性のないスタイルや遠近法
  • アングルや構成のバリエーションが限られている
  • 注意を散らす要素や無関係なオブジェクト

新しいブランド表現のイラスト

  • 全体を通して力強く一貫したブランドスタイル
  • 十分な余白のある明確な構成
  • 表現力豊かでブランドに即したキャラクターやシーン
  • バランスの取れた照明が当たるはっきりとしたレンダリング
  • スタイルの混在や視点の不一致
  • 焦点が不明確な混雑したシーン
  • ブランドに合わないプロップや無関係なビジュアル
  • 不完全または低品質のイラスト

新しいコンセプト

  • 視覚的に独特で完成度の高いコンセプト
  • 一貫した構造、ライティング、細部
  • 強いフォルムと明確なシルエット
  • クリーンなレンダリングの高品質な画像
  • 繰り返しの形状または微細な変化
  • 注意を散らす背景や細部
  • 不完全または低品質のレンダリング
  • レンダリングスタイルやエフェクトの混在

高品質な画像を使用する

  • JPG または PNG ファイルを使用します。
  • 達成したいブランド固有のスタイルやコンセプトの被写体を表す、少なくとも 10~30 枚の高品質な画像を選択します。
  • スタイルや被写体を表す様々な画像のセットをキャプチャします。
  • 各画像のファイルサイズは、50 MB を超えないようにしてください。
  • 画像の解像度が 1024x1024 ピクセルより高く、最大 16:9 の縦横比(横長)または 9:16 の縦横比(縦長)が設定されていることを確認します。 
  • 縦横比をトレーニングデータセットと一致させます。 トレーニングセットが縦長であった場合に正方形の画像を生成すると、生成時に切り取られる問題が発生します。 
  • サンプル画像を切り抜いて、最も重要な視覚要素に集中します。 例えば、人物やキャラクターが遠くに写っていて顔や体が小さい画像は除外してください。
  • 一貫した美的感覚を保ちながら、様々な視点および背景を表す画像を含めます。
  • すべての画像に白い背景があるなど、意図しないパターンが含まれていないことを確認してください。
  • 縦向きの背景のコラージュやキャラクターがかぶっている帽子など、モデルに学習させたくない注意を散らす要素を削除してください。

モデルタグをレビュー

  • ブルネットのキャラクターの茶色い髪など、トレーニングするモデルの対象やスタイルの永続的な属性を含めてください。
  • タグには、キャラクターが持っているものなど、変更可能な属性を含めないでください。
  • 3 つ以上のモデルタグを含めてください。

キャプションをレビュー

  • キャプションを使用してディテールを向上させ、モデルで生成させるコンセプトに基づいてカスタムモデルをトレーニングします。 
  • 画像キャプションは具体的で説明的なものにし、モデルでプロンプトを入力する際に使用する言葉を使ってください。
  • すべての画像キャプションの文の構造を異なるものにします。
  • 必要に応じて自動キャプションを変更し、モデルにコンセプトの詳細を通知します。
  • Firefly のベースモデルは有名な人物や場所を知らないため、キャプションにこれらの場所の説明を含めて、潜在的な成果を高める必要があります。

トレーニングデータに合った明確なプロンプトの使用

  • プロンプトには、キャプションで使用した単語やフレーズと類似したものを含めてください。
  • カスタムモデルのトレーニング対象に合った概念に従ってプロンプトを作成すると、関連性のない概念に従ったプロンプトを作成する(カラフルなライフスタイル写真でトレーニングされたモデルに、白黒イラストの宇宙船の作成を要求するなど)よりも、その独自性を保つことができます。

画像をさらに洗練させるために高度なスタイル機能を使用する

  • 視覚的な適用量スライダーは、最適な独自性を維持するために、デフォルトで最低値に設定されています。 スタイル参照などのクリエイティブなユースケースでは、視覚的な適用量を上げることでより鮮やかな結果が得られます。  
  • 被写体に構成参照を使用する場合は、背景が白い画像か、被写体を意図したポーズで描いたスケッチを選択します。