Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】Higgsfield.ai Clone - Draw to Edit

2025年09月15日に「Dev.to」が公開したITニュース「Higgsfield.ai Clone - Draw to Edit」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

Google AI StudioとGeminiで、描画や指示で画像を編集する「Draw to Edit」機能を開発。長いプロンプトを書かず、まるで絵を描くように直感的に画像加工が可能で、AIがユーザーの意図を汲み取り画像を自動生成・修正する。

出典: Higgsfield.ai Clone - Draw to Edit | Dev.to公開日:

ITニュース解説

近年、AI技術の進化は目覚ましく、特に画像編集の分野で新たな可能性が次々と生まれている。今回解説するニュースは、その最先端をいく「Draw to Edit」という革新的な画像編集機能のクローンが開発された事例に関するものだ。これは、複雑なプロンプト(AIへの指示文)を記述することなく、画像に直接描き込むような直感的な操作で画像を編集できるという画期的なシステムである。

この機能のオリジナルは「Higgsfield.ai」というサービスが提供しており、その特徴は、単にテキストで指示を出すだけでなく、既存の画像の上に線や記号を描くことで、AIがユーザーの意図を正確に理解し、望む編集を施す点にある。例えば、画像内の特定の場所に「犬」とテキストで指示し、そこに矢印を描くだけで、AIがその場所に自然な形で犬の画像を生成し、既存の画像に溶け込ませる。あるいは、別の画像を元の画像に追加したい場合も、その画像を追加し、配置したい場所へ矢印で示すだけで、AIがサイズや角度を調整して完璧にフィットさせる。従来の画像編集では、高度なスキルや複雑なツールが必要だった作業が、まるで絵を描くように手軽に行えるようになるのだ。

今回紹介された開発者は、このHiggsfield.aiの「Draw to Edit」機能をわずか3時間で独自に再現したクローンを作成した。これはGoogle AI Studioのマルチモーダルチャレンジというコンテストへの応募作品として作られたもので、短時間での開発にもかかわらず、その機能性は非常に高い。このクローンは、初心者でも簡単に画像編集ができるような、視覚的で直感的なインターフェースを提供している。ユーザーは最小限のテキストと簡単な描画操作だけで、AIに編集の指示を出すことができる。例えば、ある風景写真に特定のアイテムを追加したい場合、そのアイテムの名前を少し書き、配置したい場所に簡単な線や記号を描くだけで、AIがその指示を解釈し、適切な形で画像を生成して元のシーンに統合する。これは、まるでユーザーがAIに「ここをこうしてほしい」と具体的に指し示すような感覚に近い。

この開発において中心的な役割を果たしたのが、Googleが提供する統合開発環境「Google AI Studio」である。開発者はこのプラットフォームを使い、AIモデルのコードを記述し、テストを行いながら、最終的に「Draw to Edit」機能のアイデアを具体化していった。AI Studioは、AIモデルの開発からデプロイまでをサポートするツールであり、開発者はここで試行錯誤を重ね、今回のシステムを構築した。

そして、このシステムの核となるのが、Googleが開発した高性能なAIモデル「Gemini」の複数のバージョンだ。特に「Gemini 2.5 Pro」と「Gemini 2.5 Flash」という二つのモデルが連携して機能する。

まず「Gemini 2.5 Pro」は、システムの「脳」としての役割を担う。ユーザーが提供する元の画像と、その上に追加で描画した線やテキスト、そして追加したい画像などの情報をすべて受け取り、これらを深く分析する。Proモデルは、これらの視覚的な情報とテキスト情報を統合的に理解し、ユーザーがどのような編集を意図しているのかを高い精度で推測する。例えば、描かれた線が何を表しているのか、指示されたテキストが画像内でどのように反映されるべきかを判断し、次に画像を実際に編集するための具体的な「コマンド」を生成する。このコマンドは、次に利用するAIモデルが実行すべき手順や内容を詳細に記述したものだ。

次に「Gemini 2.5 Flash」または「Gemini 2.5 Flash Image Preview」が、この生成されたコマンドを受け取り、実際に画像を編集する「手足」としての役割を果たす。Flashモデルは、Proモデルから渡されたコマンドと、元の画像データ、そして必要に応じて提供された追加画像などを基にして、指定された通りの画像編集を行う。このモデルは、非常に高速に動作することが特徴であり、ユーザーの指示に迅速に応じた新しい画像を生成し、結果をプレビューとして表示することができる。このように、Proモデルがユーザーの意図を「理解」し、Flashモデルがその理解に基づいて「実行」するという分業体制により、効率的かつ高精度な画像編集が実現されているのだ。

このシステムは、Geminiモデルの「マルチモーダル機能」を最大限に活用している点で注目に値する。マルチモーダル機能とは、AIがテキスト、画像、音声、動画など、複数の異なる種類の情報を同時に理解し、処理できる能力のことである。今回の「Draw to Edit」機能では、ユーザーは画像上に「描画する」という視覚的な入力と、「簡単なテキストで指示を出す」というテキスト入力を同時に行う。Geminiモデルは、これらの異なる種類の情報を一元的に受け取り、それらを組み合わせることでユーザーの複雑な意図をより正確に把握する。この複数の情報源からの入力に基づき、最終的に視覚的な出力である「編集された画像」を生成するのだ。これは、人間が目で見たり、言葉で聞いたりする情報を組み合わせて物事を理解し、行動するのと似た方法で、AIが情報を処理していることを示している。

このように、今回の「Draw to Edit」クローンの開発は、AIによる画像編集が、いかに直感的で、専門知識がなくてもアクセスしやすいものになりつつあるかを示す好例である。複雑なプロンプトエンジニアリングの知識がなくても、絵を描くような感覚で高品質な画像を生成・編集できる未来が、すでに現実のものとなりつつあることを示唆している。

関連コンテンツ