レビュー

中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開


中国の大手IT企業であるアリババが、720億のパラメーター数を誇るTransformerベースの大規模言語モデル「Qwen-72B」と、日本語の音声入力にも対応したQwenのマルチモーダルバージョンの「Qwen-Audio」をオープンソース化したことを発表しました。

Qwen/README_JA.md at main · QwenLM/Qwen · GitHub
https://github.com/QwenLM/Qwen/blob/main/README_JA.md

Qwen/Qwen-72B-Chat · Hugging Face
https://huggingface.co/Qwen/Qwen-72B-Chat

GitHub - QwenLM/Qwen-Audio: The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen-Audio

アリババグループの最先端研究機関・アリババDAMOアカデミーで神経言語プログラミング(NPL)を研究しているBinyuan Hui氏は、SNSへの投稿で「私たちの誠実なオープンソース作品、Qwen-72BとQwen-1.8Bを紹介できることを誇りに思います!」と発表しました。


Qwen-72Bは3兆以上のトークンで学習した大規模言語モデルで、MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBHなど自然言語理解や数的処理、コーディングなどに関する一連のベンチマークでは全てのタスクで同サイズのモデルであるMetaのLLaMA2-70Bを上回ったとのこと。また、10タスク中7タスクでOpenAIのGPT-3.5を超える成績をたたき出しました。

さっそく試したユーザーからは、日本語の処理も軽快に行えるとの報告が出ています。


ただし、要求するメモリ容量が大きいためローカルで動かすのは少し厳しいとの意見もあります。


Qwenには、Qwen-72Bの他にパラメータサイズが異なる「Qwen-1.8B」「Qwen-7B」「Qwen-14B」もあります。また、中国語でのユーザー登録が必要ですが、Qwen-72Bをブラウザで動かすことができるデモも用意されています。

通义千问-72B-对话-Demo · 创空间
https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary


Hui氏はまた、音声入力に対応したモデル「Qwen-Audio」もオープンソース化されていると発表しました。


Qwen-AudioはQwen-7BとOpenAIの音声エンコーダーであるWhisper-large-v2を組み合わせたもので、既存の最先端(State of the Art:SoTA)モデルを全てのタスクで上回っているとのこと。


Qwen-AudioのデモはHugging Faceでユーザー登録をしなくても触ることができます。


まずは日本語のテキストを入力して質問してみました。


すると、以下のような回答が出力されました。


音声にも対応しているとのことなので、音声ファイルをアップロードしてみました。使用したのは、以前の記事で作成した動画の冒頭部分です。


「Submit」をクリックして送信します。


音声ファイルの内容は「地球上に金はどれくらい存在していますか?」というもの。なぜか歌詞と認識されてしまって会話はできませんでしたが、精度は高い模様です。


イーロン・マスク氏の問題発言である「Go fuck yourself」も聞き取れました。


Qwen-Audio-Chatは、中国語、英語、日本語、韓国語、ドイツ語、スペイン語、イタリア語での音声理解をサポートしているとのことです。

この記事のタイトルとURLをコピーする

・関連記事
アリババがChatGPTの50倍以上のパラメーターを持つチャットAI「通义千问(トンギーチェンウェン)」を発表 - GIGAZINE

人工知能(AI)がスタンフォード大学の読書テストで人間を凌駕するスコアをマーク - GIGAZINE

中国企業が続々とChatGPTっぽいスタイルの製品を開発中 - GIGAZINE

人気チャットアプリを含む100以上の生成AIアプリが中国のApp Storeから削除される、中国政府の新たなAI規制によるもの - GIGAZINE

アメリカの制裁に反して中国の半導体技術が急速に発展、中国政府がアリババとテンセントにRISC-Vチップの開発を促しているとの報道も - GIGAZINE

アリババが「ウイグル人を識別する顔認識クラウドサービス」を提供していたとの指摘 - GIGAZINE

in レビュー,   ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.