LocateAnything-3B — Text Detection API

Trả JSON {answer, boxes[0..1000]}. Dùng cho pipeline dịch video.

generation_mode