レビュー

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開


中国の大手IT企業であるアリババが、720億のパラメーター数を誇るTransformerベースの大規模言語モデル「Qwen-72B」と、日本語の音声入力にも対応したQwenのマルチモーダルバージョンの「Qwen-Audio」をオープンソース化したことを発表しました。

Qwen/README_JA.md at main · QwenLM/Qwen · GitHub
https://github.com/QwenLM/Qwen/blob/main/README_JA.md

Qwen/Qwen-72B-Chat · Hugging Face
https://huggingface.co/Qwen/Qwen-72B-Chat

GitHub - QwenLM/Qwen-Audio: The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen-Audio

アリババグループの最先端研究機関・アリババDAMOアカデミーで神経言語プログラミング(NPL)を研究しているBinyuan Hui氏は、SNSへの投稿で「私たちの誠実なオープンソース作品、Qwen-72BとQwen-1.8Bを紹介できることを誇りに思います!」と発表しました。

We are proud to present our sincere open-source works: Qwen-72B and Qwen-1.8B! Including Base, Chat and Quantized versions!

???? Qwen-72B has been trained on high-quality data consisting of 3T tokens, boasting a larger parameter scale and more training data to achieve a… pic.twitter.com/VUAMbh83At

— Binyuan Hui (@huybery)


Qwen-72Bは3兆以上のトークンで学習した大規模言語モデルで、MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBHなど自然言語理解や数的処理、コーディングなどに関する一連のベンチマークでは全てのタスクで同サイズのモデルであるMetaのLLaMA2-70Bを上回ったとのこと。また、10タスク中7タスクでOpenAIのGPT-3.5を超える成績をたたき出しました。

さっそく試したユーザーからは、日本語の処理も軽快に行えるとの報告が出ています。

Qwen-72Bの推論スピードをStablelm-base-70Bと比較しました

Qwenは、vocab size 15.2万
StablelmはLlama2系で、3.2万

Qwenは日本語でも推論早かった???? pic.twitter.com/ft97X3UHmS

— AI????サトシ⏩ (@AiXsatoshi)


ただし、要求するメモリ容量が大きいためローカルで動かすのは少し厳しいとの意見もあります。

bf16/fp16 で Qwen-72B-Chat を実行するには、少なくとも 144GB GPU メモリが必要です (例: 2xA100-80G または 5xV100-32G) int4 で実行するには、少なくとも 48GB GPU メモリが必要です (例: 1xA100-80G または 2xV100-32G)。

無理なんだけど... https://t.co/8hrpCG47Sv

— ようさん (@ayousanz)


Qwenには、Qwen-72Bの他にパラメータサイズが異なる「Qwen-1.8B」「Qwen-7B」「Qwen-14B」もあります。また、中国語でのユーザー登録が必要ですが、Qwen-72Bをブラウザで動かすことができるデモも用意されています。

通义千问-72B-对话-Demo · 创空间
https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary


Hui氏はまた、音声入力に対応したモデル「Qwen-Audio」もオープンソース化されていると発表しました。

???? Thanks to all the enthusiasm, let's add some fuel to the fire! We've further open-sourced ???? Qwen-Audio, including Base and Chat, as well as the demo!

???? Base: https://t.co/J8ACjUO4xE
???? Chat: https://t.co/p0RzfAvYxG
???? Demo: https://t.co/F1b30iHy5c https://t.co/B2sf4xsc7I

— Binyuan Hui (@huybery)


Qwen-AudioはQwen-7BとOpenAIの音声エンコーダーであるWhisper-large-v2を組み合わせたもので、既存の最先端(State of the Art:SoTA)モデルを全てのタスクで上回っているとのこと。

Making audio a first-class citizen in LLMs: Qwen Audio ????

Using a Multi-Task Training Framework, Qwen Audio - Combines OpenAI's Whisper large v2 (Audio encoder) with Qwen 7B LM to train on over 30 audio tasks jointly.

Tasks ranging from Speech Recognition to Music Captioning… pic.twitter.com/7gzKAV6rfv

— Vaibhav (VB) Srivastav (@reach_vb)


Qwen-AudioのデモはHugging Faceでユーザー登録をしなくても触ることができます。


まずは日本語のテキストを入力して質問してみました。


すると、以下のような回答が出力されました。


音声にも対応しているとのことなので、音声ファイルをアップロードしてみました。使用したのは、以前の記事で作成した動画の冒頭部分です。


「Submit」をクリックして送信します。


音声ファイルの内容は「地球上に金はどれくらい存在していますか?」というもの。なぜか歌詞と認識されてしまって会話はできませんでしたが、精度は高い模様です。


イーロン・マスク氏の問題発言である「Go fuck yourself」も聞き取れました。


Qwen-Audio-Chatは、中国語、英語、日本語、韓国語、ドイツ語、スペイン語、イタリア語での音声理解をサポートしているとのことです。

この記事のタイトルとURLをコピーする

・関連記事
アリババがChatGPTの50倍以上のパラメーターを持つチャットAI「通义千问(トンギーチェンウェン)」を発表 - GIGAZINE

人工知能(AI)がスタンフォード大学の読書テストで人間を凌駕するスコアをマーク - GIGAZINE

中国企業が続々とChatGPTっぽいスタイルの製品を開発中 - GIGAZINE

人気チャットアプリを含む100以上の生成AIアプリが中国のApp Storeから削除される、中国政府の新たなAI規制によるもの - GIGAZINE

アメリカの制裁に反して中国の半導体技術が急速に発展、中国政府がアリババとテンセントにRISC-Vチップの開発を促しているとの報道も - GIGAZINE

アリババが「ウイグル人を識別する顔認識クラウドサービス」を提供していたとの指摘 - GIGAZINE

in レビュー,   ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.