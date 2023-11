ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGPT https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html [2311.17035] Scalable Extraction of Training Data from (Production) Language Models https://arxiv.org/abs/2311.17035 機械学習モデルのトレーニングに使用したデータがほとんどそのまま出力されてしまう現象は以前より発生しており、例えば画像生成用のモデル「Stable Diffusion」では下図の様に人名を入れることでトレーニングデータに含まれていたその人の写真をほとんどそのまま出力することができました。

2023年11月30日 12時00分00秒 in ソフトウェア, ウェブアプリ, セキュリティ, Posted by log1d_ts

