Snowflakeにおける可観測性:Snowflake Trailによる新時代

従来、テレメトリの発見と提示は面倒で困難なプロセスであり、特にデバッグすべき特定の問題を特定することは困難でした。しかし、アプリケーションやパイプラインが複雑化するにつれ、水面下で何が起こっているのかを理解することがますます重要になっています。可視性の欠如は、高品質のアプリケーションやパイプラインの開発やメンテナンスの妨げとなり、最終的にはカスタマーエクスペリエンスに影響を与えます。開発者やデータエンジニアが迅速に問題を特定し解決するためには、総合的な可観測性ツールが不可欠です。
Snowflake Trailの紹介
Snowflake Trailは、開発者とデータエンジニアがSnowsightまたはサードパーティツールを使用してアプリケーションとデータパイプラインを監視し、アクションを起こすことを可能にする豊富なSnowflake機能です。Snowflake Trailは、Snowflakeのクエリ履歴、イベントテーブル、アラート、通知をテレメトリ基盤として活用し、データ品質、パイプライン、アプリケーションに対する可視性を強化します。それぞれのシグナルにより、開発者はワークフローを簡単に監視、トラブルシューティング、最適化できます。Snowflake Trailは、すでにSnowflakeに搭載されている可観測性を基盤として構築されています。タスク履歴や動的テーブルの可観測性などの オブザーバビリティが組み込まれています今回のリリースにより、Snowflakeで何が、どのように観察できるかの幅が広がりました。

1つのシンプルな設定による簡単なテレメトリ
Snowflake Trailは、自動化されたテレメトリで構築されており、エージェントや設定タスクは必要ありません。デフォルトのイベントテーブル(近日中にパブリックプレビュー開始)がすべてのアカウントのSnowflakeデータベースにあるため、独自のカスタムイベントテーブルを作成して管理する必要はありません。Snowflake Trailでは、エージェントのインストール、面倒なセットアップ、データエクスポート作業が不要になり、アプリケーションとパイプラインのパフォーマンスに関するインサイトを迅速に取得できます。簡単な設定を行うだけで、Snowparkコードのパフォーマンスとリソースの使用状況を可視化し、アプリやパイプライン開発の診断とデバッグを迅速に行うことができます。イベントはすべてSnowflake内で行われ、追加のデータ転送は必要ありません。
カスタマーストーリー
Snowflake Trailの機能により、お客様はアプリケーションとパイプラインの開発を大幅に改善しました。
「Snowpark UDFでの作業では、非常に複雑になってしまうロジックがいくつか存在します。場合によっては、何千行ものJavaコードを監視し、デバッグする必要もありました。phData Inc.の主任ソリューションアーキテクトであるNick Pileggi氏は、SparkとHadoopアプリケーションのSnowparkへの移行について、次のように述べています。「新しいロギング機能とトレース機能により、コードやデータの問題をより迅速に調査し、パフォーマンスの問題をより迅速に見つけることができます。
「イベントテーブルは、Snowflakeネイティブアプリの市場投入を行う私たちにとって欠かせない存在です。私たちのお客様は、診断データを手動で抽出して当社に送信する必要はありません。イベントの共有を選択するだけで、私たちのサポートを受けられるようになりました」Snowflake Trailの新機能であるログエクスプローラーやトレースビューアは、コードのパフォーマンスのボトルネックを解消するために役立ちます。ログエクスプローラーやトレースビューアは、Snowflakeマーケットプレイスで公開されているSnowflakeネイティブアプリ、Omnataの共同設立者であり、SnowflakeデータスーパーヒーローでもあるJames Weakley氏が述べています。
可観測性が組み込まれているため、検出までの時間(TTD)と解決までの時間(TTR)が短縮されます。
Snowflake Trailは、メトリクス、ログ、スパンイベントなどの包括的なテレメトリシグナルを提供し、開発者がアプリケーションとパイプラインをより深く理解できるようにします。Snowsightでは、これらのシグナルがまとめられるため、開発者は問題を即座にデバッグして検出し、TTDとTTRを減らすことができます。 主な機能:
- Snowparkメトリクス(プライベートプレビュー中):新しいSnowparkメトリックを使用して、Snowpark(Python)ストアドプロシージャおよび関数のコードのCPUおよびメモリ消費量を把握します。その他の言語のサポートは近日公開予定です。
- Python DataFrameの自動トレース(プライベートプレビュー中):Snowpark DataFramesを使用すると、開発者はネイティブのPythonでクエリを記述できます。SnowflakeでDataFramesを使用すると、これらの操作がトレースビューにも表示され、パイプラインの実行全体を確認できます。
- Python用ユーザーコードプロファイラー(プライベートプレビュー中):開発者はストアドプロシージャにプロファイラーをアタッチすることで、コンピュートに最も時間がかかる場所を把握し、Pythonの実行をより適切に最適化できます。
- ログ属性(パブリックプレビュー中):ログをさらにフィルタリング。JavaとJavaScriptで利用可能、Pythonのサポートは近日公開。
- サーバーレスアラート(パブリックプレビュー):サーバーレス機能のコストとウェアハウスの最適化により、アラートのパワーと評価ロジックを利用できるようになりました。
開発者は、パイプラインやアプリの状況を可視化し、ログエクスプローラー(パブリックプレビュー)などの機能を使用してSnowsight内で直接ログ、メトリクス、トレースとやり取りし、Snowparkコードのログを簡単に表示およびフィルタリングできます。

また、Snowparkの分散型トレース機能(プライベートプレビュー中)により、オブジェクト間のコールの可視化とトラブルシューティングが容易になります。

最後になりましたが、Snowflake Trailは、Snowflake Horizonの一部としてデータ品質モニタリングも提供しています(近日中に一般提供開始)。お客様は、すぐに使えるシステムメトリクス(nullカウントなど)またはデータ品質をモニタリングするために定義できるカスタムメトリクスを備えた、組み込みのデータ品質ソリューションを利用できます。データエンジニアとスチュワードは、組織全体のデータ品質の低下を効果的に監視し、報告することができます。
シンプルにSnowsightまたはBring Your Own Toolsを使用:Snowsightを使用すると、パイプライン、アプリ、リソースの使用状況をSnowflakeで直接監視およびトレースできます。さらに、Snowflake Trailは業界標準のOpenTelemetry仕様と通知先に準拠しているため、お気に入りの可観測性およびカスタマイズ可能な通知ツール(Datadog、Grafana、Observe、Metaplane、PagerDuty、Slack、Microsoft Teamsなど)と簡単に統合できます。
Snowflake Trailの利用を始める
Snowflake Trailは、Snowflakeの可観測性ジャーニーにおける重要なマイルストーンであり、ユーザーが長年直面している可観測性の課題に対処します。豊富なテレメトリ、組み込みの可観測性エクスペリエンス、サードパーティツールとの容易な統合により、Snowflake Trailは、開発者がSnowflakeでアプリケーションとパイプラインを構築、展開、維持する方法に革命を起こす準備を整えています。 Snowflake Trailの詳しい情報をご覧ください。