音声アシスタントの音楽再生時の音声認識について

前提 : スマートスピーカー等の音声アシスタントが、その筐体の機能で音楽を再生していても利用者の音声又はウェイクアップワードを認識する場合。

質問 : 音楽内に歌詞として人間の音声が入っていたりしますが、この環境下からどのように利用者の音声を認識しているのでしょうか？

(個人的には、スピーカーのアウトプットをマイクロフォンからのインプットにフィードバックさせて、同じ周波数を除外しているのかと思ってるのですが。。。的外れですかね？)