LINEのData Platformでは、データの利活用にあたりいくつかの課題が存在しました。まず、LINEではデータが莫大なため、メタデータの人的管理が難しい点です。次に、LINEでは「Always Data Driven」という行動指針を掲げており、厳格な権限管理を前提に、数多くの事業のデータに関する多様なユーザーニーズを満たすUXを提供する必要がある点です。
私たちはこうした課題を解決するために、Data Catalogを内製しました。メタデータの収集・管理については、QueryをApache AtlasにhookしてLineageを生成するなど、様々なHadoopエコシステムの技術を用いて自動的に行っています。またUXについては、Catalogをパーソナライズ化、APIによる各種システムとの連携によって、既存の業務プロセスの中で活用しやすいように工夫しました。
本セッションでは、私たちがData Catalogを開発する際に設計したコンセプトや各種機能、その活用事例について紹介します。