vision api を使い、画像から行単位で文字を検出したいです。jsonでTEXT_DETECTIONを指定してAPIを叩くとTextAnnotationsというオブジェクト内に検出したテキストが返ってくるのですが、順序がバラバラです。

このような記事を見つけましたが、回答が分かりにくい(汗)(僕が言いたいことはこの質問者さんと同じです)。
https://codeday.me/jp/qa/20190426/710391.html

TextAnnotations内に文字の範囲の座標も含まれているのですが、それをうまく利用できないか考えています。

ググってもあまり情報がなくて困っています。vision apiに詳しい方がいたらアドバイスをいただけると助かります。