ソフトウェア

オブジェクトストレージの検索を安価で高速にする方法


オブジェクトストレージ用の高速検索エンジンサービス「turbopuffer」を開発したサイモン・ホルプ・エスキルセン氏が、どのようにオブジェクトストレージの検索を安価かつ高速に行えるようにしたのかについてブログに投稿しました。

turbopuffer: fast search on object storage
https://turbopuffer.com/blog/turbopuffer


エスキルセン氏は現代のインフラスタックでよく使用されているデータベース5つを下の表にまとめました。ワークロードごとに適切な専用データベースを使用するのは運用の負荷が高いため、特定のワークロードで問題が多発するようになるまではPostgresやMySQLなどのリレーショナルデータベースを使っておけば良いとのこと。

カテゴリ技術読込レイテンシ書込レイテンシストレージユースケース
キャッシュRedis, Memcached<500µs<500µsメモリパフォーマンス重視
RDBMySQL, Postgres<1ms<1msメモリ+SSDSOT・トランザクション・CRUD
検索ElasticSearch, Vector DBs<100ms<1sメモリ+SSDレコメンデーション・検索・フィード・RAG
保存BigQuery, Snowflake>1s>1sオブジェクトストレージレポート・データ分析
ストリーミングKafka, Warpstream<100ms<100msHDD/オブジェクトストレージログ・システム間データ移動・リアルタイム分析


エスキルセン氏には2022年にReadwise Readerというリーダーアプリの開発を手伝っている時、インフラコストが高すぎてRDBからメモリ内データベースに移行できず、記事のリコメンデーションやセマンティック検索の実装を見送った経験があります。2022年当時、企業グレードのベクトルデータベースはメモリ内ストレージを使用しており、1GBあたり2ドル(約323円)のコストがかかっていました。

オブジェクトストレージが普及したり、NVMe SSDが安価かつ高速になったりするなどの技術の進化により、全てのデータをメモリ内ストレージに保存する代わりにディスク媒体と混合で使用することでコストを大きく低下させることが可能になったとのこと。


この記事のタイトルとURLをコピーする

・関連記事
SSDの寿命を30倍にするマニュアルが公開される - GIGAZINE

Googleの検索アルゴリズムに関する内部文書が流出、Chromeのデータをページランク付けに利用するなどGoogleのウソが明らかに - GIGAZINE

Google検索の品質悪化はリーダーが変わったことの影響だという指摘 - GIGAZINE

最長200年のデータ保存が可能なUSBフラッシュメモリが発売される、ただし容量は8KB - GIGAZINE

「2026年までに300TBのSSDを実現する」という野心的な目標をオールフラッシュ・ストレージを開発するPure Storageが掲げる - GIGAZINE

in ソフトウェア,   無料メンバー, Posted by log1d_ts

You can read the machine translated English article here.