Git などのバージョン管理ツールの発展の背後には「テキストデータは行単位で簡単に差分が取れ、しかもどのような差分なのか閲覧しやすい」という特徴があるように思います。

逆に音声、画像、動画といったバイナリデータでは "良い感じ" の差分が取りづらく、定期的なバックアップを使ったバージョン管理より高度なバージョン管理がやりにくそうです。個人的に動画編集をしていると、動画に対して Git のようなバージョン管理ができれば良いのにと思うのですが、良いツールが見つかりません。

動画の差分を素朴に1フレームごとピクセル単位でとろうとすると、動画データの圧縮手法や編集手法によっては実際に編集した部分以外のピクセルが変わってしまうことも影響しそうです。機械学習を使えば上手く処理できるかもしれませんが、簡単に検索しただけだと既存研究が良く分かりませんでした。

質問

動画に対して、バージョン管理に使いやすい diff を生成するアルゴリズムは知られていますか?