オブジェクトストレージの検索を安価で高速にする方法
![](https://i.gzn.jp/img/2024/07/11/turbopuffer-fast-search/00_m.png)
オブジェクトストレージ用の高速検索エンジンサービス「turbopuffer」を開発したサイモン・ホルプ・エスキルセン氏が、どのようにオブジェクトストレージの検索を安価かつ高速に行えるようにしたのかについてブログに投稿しました。
turbopuffer: fast search on object storage
https://turbopuffer.com/blog/turbopuffer
![](https://i.gzn.jp/img/2024/07/11/turbopuffer-fast-search/snap6563.png)
エスキルセン氏は現代のインフラスタックでよく使用されているデータベース5つを下の表にまとめました。ワークロードごとに適切な専用データベースを使用するのは運用の負荷が高いため、特定のワークロードで問題が多発するようになるまではPostgresやMySQLなどのリレーショナルデータベースを使っておけば良いとのこと。
カテゴリ | 技術 | 読込レイテンシ | 書込レイテンシ | ストレージ | ユースケース |
---|---|---|---|---|---|
キャッシュ | Redis, Memcached | <500µs | <500µs | メモリ | パフォーマンス重視 |
RDB | MySQL, Postgres | <1ms | <1ms | メモリ+SSD | SOT・トランザクション・CRUD |
検索 | ElasticSearch, Vector DBs | <100ms | <1s | メモリ+SSD | レコメンデーション・検索・フィード・RAG |
保存 | BigQuery, Snowflake | >1s | >1s | オブジェクトストレージ | レポート・データ分析 |
ストリーミング | Kafka, Warpstream | <100ms | <100ms | HDD/オブジェクトストレージ | ログ・システム間データ移動・リアルタイム分析 |
エスキルセン氏には2022年にReadwise Readerというリーダーアプリの開発を手伝っている時、インフラコストが高すぎてRDBからメモリ内データベースに移行できず、記事のリコメンデーションやセマンティック検索の実装を見送った経験があります。2022年当時、企業グレードのベクトルデータベースはメモリ内ストレージを使用しており、1GBあたり2ドル(約323円)のコストがかかっていました。
オブジェクトストレージが普及したり、NVMe SSDが安価かつ高速になったりするなどの技術の進化により、全てのデータをメモリ内ストレージに保存する代わりにディスク媒体と混合で使用することでコストを大きく低下させることが可能になったとのこと。
・関連記事
SSDの寿命を30倍にするマニュアルが公開される - GIGAZINE
Googleの検索アルゴリズムに関する内部文書が流出、Chromeのデータをページランク付けに利用するなどGoogleのウソが明らかに - GIGAZINE
Google検索の品質悪化はリーダーが変わったことの影響だという指摘 - GIGAZINE
最長200年のデータ保存が可能なUSBフラッシュメモリが発売される、ただし容量は8KB - GIGAZINE
「2026年までに300TBのSSDを実現する」という野心的な目標をオールフラッシュ・ストレージを開発するPure Storageが掲げる - GIGAZINE
・関連コンテンツ
in ソフトウェア, 無料メンバー, Posted by log1d_ts
You can read the machine translated English article How to make object storage lookups cheap….