2022年09月06日 19時00分レビュー

中国製画像生成AI「ERNIE-ViLG」でブラウザからイラストを簡単に作れる「GUI Tool ERNIE-ViLG version」をGoogle Colabにインストールして動かす方法まとめ

中国のBaidu(百度)が開発した画像生成AIが「ERNIE-ViLG」です。ERNIE-ViLGは100億以上のパラメータースケールを持ち、1億4500万種類以上の画像とテキストで構成された大規模なデータセットでトレーニングされており、特に萌え系の二次元イラストの生成に強いといわれています。そんなERNIE-ViLGを、ブラウザ上でPythonを記述・実行してGoogleのGPUに無料でアクセスできるサービス・Google Colaboratory(Google Colab)で動かすためのノートブックを、エンジニアのからあげさんがGitHubに公開していたので実際に使ってみました。

stable-diffusion-colab-tools/003_stable_diffusion_gui_ERNIE_ViLG.ipynb at main · karaage0703/stable-diffusion-colab-tools · GitHub
https://github.com/karaage0703/stable-diffusion-colab-tools/blob/main/003_stable_diffusion_gui_ERNIE_ViLG.ipynb

まずはからあげさんが公開しているノートブックから、まずは以下のコードをコピーします。

!pip install -qq paddlepaddle-gpu -U
!pip install -qq paddlehub==2.1.0
!pip install -qq gradio

import os
import datetime
import paddlehub as hub

module = hub.Module(name="ernie_vilg")

次に、Google Colabにログインして新規ノートブックを作成し、左上の「＋コード」をクリックします。

先ほどコピーしたコードをペーストして入力したら、再生アイコンをクリックして実行。

完了したら再生アイコンの左側に緑色のチェックアイコンが表示されます。続いて、さらに「＋コード」をクリック。

そして、公開されているノートブックから以下のコードをコピーします。

#@title **Launch App**
#@markdown　Execute and click URL ex: `Running on public URL: https://xxxx.gradio.app` import gradio as gr

style_list = ['\u6CB9\u753B', '\u6C34\u5F69', '\u7C89\u7B14\u753B', '\u5361\u901A', '\u513F\u7AE5\u753B', '\u8721\u7B14\u753B', '\u63A2\u7D22\u65E0\u9650']


def infer(prompt, num_images, style_numb):
    num_images = int(num_images)
    style_numb = int(style_numb)

    image_list = []
    for num in range(num_images):
        images = module.generate_image(text_prompts=[prompt], style=style_list[style_numb], visualization=False)
        image_list.append(images[0])

    return image_list


from IPython.display import clear_output

block = gr.Blocks(css=".container { max-width: 800px; margin: auto; }")

with block as demo:
    gr.Markdown("<h1><center>Stable Diffusion Tool ERNIE-ViLG</center></h1>")
    gr.Markdown(
        'Stable Diffusion useful web tool ERNIE-ViLG version'
    )
    with gr.Group():
        with gr.Box():
            gr.Markdown(
                'Enter prompt and Run!!'
            )
            with gr.Row().style(mobile_collapse=False, equal_height=True):

                text = gr.Textbox(
                    label='Enter prompt', show_label=False, max_lines=1
                ).style(
                    border=(True, False, True, True),
                    rounded=(True, False, False, True),
                    container=False,
                )
                btn = gr.Button("Run").style(
                    margin=False,
                    rounded=(False, True, True, False),
                )

        num_images = gr.Number(
                    label='Number of images', value=3
                )


        style_numb = gr.Slider(
                    label='Style 0:油画 1:水彩 2:粉笔画(Chalk drawing) 3:卡通(Cartoon) 4:蜡笔画(Crayon drawing) 5:儿童画(Children drawing) 6:探索无限(Explore infinity)', minimum=0, maximum=6, value=0, step=1
                )


        gallery = gr.Gallery(label="Generated images", show_label=False).style(
            grid=[2], height="auto"
        )

        btn.click(infer,
                 inputs=[text, num_images, style_numb], outputs=gallery)

    gr.Markdown(
        """___
   <p style='text-align: center'>
   Created by CompVis and Stability AI
   <br/>
   </p>"""
    )

clear_output()
demo.launch(debug=True)

コピーしたコードを貼り付けて入力したら、再生アイコンをクリックして実行します。

実行すると、コード入力欄の下にERNIE-ViLGに指示を出すためのUIが出現します。このUIはそのままGoogle Colab上でも操作可能ですが、入力欄の上にあるURLをクリックすると、通常のブラウザからもUIに直接アクセスできます。なお、生成されたURLの有効時間は72時間になっています。

URLをクリックすると、こんな感じ。ERNIE-ViLGは中国製の画像生成AIなので、プロンプトは英語だけではなく中国語にも対応しています。プロンプトの入力欄の下にある数字は画像の生成枚数、その下にあるスライドバーは生成する画像のスタイルを決めることができます。

今回はプロンプトを翻訳ソフトのDeePLを使いながら、あえて中国語で入力してみました。内容は「可爱的黑发女孩，女学生，吃汉堡包，日本动漫风格(かわいい黒髪の女の子, 女子高生, ハンバーガーを食べている, 日本のアニメ風)」で、生成枚数を3枚、スタイルを「卡通(Cartoon、漫画)」に設定し、「Run」をクリック。