ヘンリーで SRE をやっている id:nabeop です。2023/10/19 に開催された OpenTelemetry Meetup 2023-10に登壇したので感想とフォローアップエントリです。
まず、Meetup の企画をしていただいた運営のみなさま、素敵な会場やオンライン中継をご提供いただいた CARTA HOLDINGS 様に感謝します。本当にありがとうございました。当日は久しぶりにたくさんの聴講があるイベントの登壇で緊張しましたが、素晴らしい発表も聴けてとても実りが多い Meetup でした。
登壇内容
今回の登壇資料は Speakerdeck にアップロードしています。
今回は時間の関係で複数のアプローチを PoC 環境で構築しての比較までしか共有できませんでしたが、社内では引き続き OpenTelemetry の構成見直しは進んでいて、近いうちにサービス環境の OpenTelemetry 周りの構成を入れ替えて、可観測性の向上に繋げたいと思っています。このあたりはまた機会をみつけて、得られた知見をみなさんにお届けしたいと考えています。
さて、今回の発表ではお金の話が目立ってしまいました。確かに Cloud Native な環境で可観測性を獲得するためにはそれなりのコストがかかります。しかし、抽象度の高い PaaS などの環境に構築された複数のコンポーネントが複雑に関連していることが前提になってきている場合は何らかの手段によって可観測性を高めるための手段の導入はサービスの安定性の維持には必要不可欠です。
実際に我々も OpenTelemetry は導入していて、可視化されたトレース情報による恩恵を実感したものの、保存されているトレース情報に課題感を感じたので、今回の見直しをしています。今回の発表のように導入にはいくつかのアプローチが存在し、それぞれにコスト面でのメリットとデメリットがあります。他にも運用面や開発面でのメリットとデメリットがあります。それぞれの環境でバランスが良い選択があるはずなので、今回の発表が選択時の参考になれば嬉しいです。
僕以外の方の発表内容もとても参考になって、@ymotongpoo さんの OpenTelemetryのここ4年の流れは OpenTelemtry が登場した背景を丁寧に解説していただけたので、自分の中の知識も整理できて助かりました。とくに OpenTelemetry が設立された背景は全く追えてなかったのでよかったです。
また、逆井さんのジョインしたチームのマイクロサービスたちを再計装した話は、ちょうど僕らも PoC が終わった後には計装の詳細を詰めていく必要があるので、実務の経験からくる知見はとてもありがたかったです。このあたりの知見は日本語ではまだまだ出てきていないので、僕らも同じように知見が共有できるようにしたいとう思いを改めて実感しました。
Q&A セッションで話題に出ていた exampler については僕も全然知らない話題だったので、配信のアーカイブなどで復習したいですね。
今後
今はインフラ面の構成方針はおおまかにはきまっていて、あとは細かい構成の調整や計装内容について検討しているところです。遅くとも今年中には本格的に稼働を開始して運用知見を貯めるフェーズにしたいと考えています。
ヘンリーでは Observability の整備の他にも複雑なシステムに正面から向き合って、社会課題を解決していく仲間を募集しています。興味のあるかたはぜひご連絡ください。