Η ερευνητική ομάδα AI της Apple ανέπτυξε ένα νέο μοντέλο που θα μπορούσε να προωθήσει σημαντικά τον τρόπο με τον οποίο οι μηχανές αντιλαμβάνονται το βάθος, μεταμορφώνοντας ενδεχομένως κλάδους που κυμαίνονται από την επαυξημένη πραγματικότητα έως τα αυτόνομα οχήματα.
Το σύστημα, που ονομάζεται Depth Pro, είναι σε θέση να παράγει λεπτομερείς 3D χάρτες βάθους από μεμονωμένες 2D εικόνες σε κλάσματα του δευτερολέπτου, χωρίς να βασίζεται στα δεδομένα της κάμερας που παραδοσιακά απαιτούνται για την πραγματοποίηση τέτοιων προβλέψεων.
Η τεχνολογία, η οποία περιγράφεται λεπτομερώς σε ένα ερευνητικό έγγραφο με τίτλο «Depth Pro: Sharp Monocular Metric Depth in Less Than a Second», είναι ένα σημαντικό άλμα προς τα εμπρός στον τομέα της μονοφθάλμιας εκτίμησης βάθους, μια διαδικασία που χρησιμοποιεί μόνο μια εικόνα για να συμπεράνει το βάθος.
Αυτό θα μπορούσε να έχει εκτεταμένες εφαρμογές σε όλους τους τομείς όπου η χωρική αντίληψη σε πραγματικό χρόνο είναι καθοριστικής σημασίας. Οι δημιουργοί του μοντέλου, με επικεφαλής τους Aleksei Bochkovskii και Vladlen Koltun, περιγράφουν το Depth Pro ως ένα από τα ταχύτερα και ακριβέστερα συστήματα του είδους του. Η μονοφθαλμική εκτίμηση του βάθους αποτελούσε επί μακρόν μια δύσκολη εργασία, απαιτώντας είτε πολλαπλές εικόνες είτε μεταδεδομένα όπως εστιακές αποστάσεις για την ακριβή εκτίμηση του βάθους.
Το Depth Pro όμως παρακάμπτει αυτές τις απαιτήσεις, παράγοντας χάρτες βάθους υψηλής ανάλυσης σε μόλις 0,3 δευτερόλεπτα με μια τυπική GPU. Το μοντέλο μπορεί να δημιουργήσει χάρτες 2,25 megapixel με εξαιρετική ευκρίνεια, καταγράφοντας ακόμη και μικροσκοπικές λεπτομέρειες όπως τα μαλλιά και η βλάστηση που συχνά παραβλέπονται από άλλες μεθόδους.
«Αυτά τα χαρακτηριστικά επιτρέπονται από μια σειρά τεχνικών συνεισφορών, συμπεριλαμβανομένου ενός αποτελεσματικού μετασχηματιστή όρασης πολλαπλών κλιμάκων για πυκνή πρόβλεψη», εξηγούν οι ερευνητές στη μελέτη τους. Αυτή η αρχιτεκτονική επιτρέπει στο μοντέλο να επεξεργάζεται ταυτόχρονα τόσο το συνολικό πλαίσιο μιας εικόνας όσο και τις λεπτότερες λεπτομέρειές της, ένα τεράστιο άλμα από τα πιο αργά και λιγότερο ακριβή μοντέλα που προηγήθηκαν.
Αυτό που πραγματικά χαρακτηρίζει το Depth Pro είναι η ικανότητα του να εκτιμά τόσο το σχετικό όσο και το απόλυτο βάθος, μια ικανότητα που ονομάζεται «μετρικό βάθος». Αυτό σημαίνει ότι το μοντέλο μπορεί να παρέχει μετρήσεις στον πραγματικό κόσμο, κάτι που είναι απαραίτητο για εφαρμογές όπως η επαυξημένη πραγματικότητα (AR), όπου εικονικά αντικείμενα πρέπει να τοποθετούνται σε ακριβείς θέσεις μέσα σε φυσικούς χώρους.
Επίσης, το Depth Pro δεν απαιτεί εκτεταμένη εκπαίδευση σε σύνολα δεδομένων συγκεκριμένων τομέων για να κάνει ακριβείς προβλέψεις, ένα χαρακτηριστικό που είναι γνωστό ως «μάθηση μηδενικής λήψης». Αυτό καθιστά το μοντέλο εξαιρετικά ευέλικτο. Μπορεί να εφαρμοστεί σε ένα ευρύ φάσμα εικόνων, χωρίς την ανάγκη για δεδομένα που αφορούν συγκεκριμένες κάμερες, τα οποία συνήθως απαιτούνται στα μοντέλα εκτίμησης βάθους.
«Το Depth Pro παράγει μετρικούς χάρτες βάθους με απόλυτη κλίμακα σε αυθαίρετες εικόνες στον κόσμο, χωρίς να απαιτεί μεταδεδομένα όπως τα εσωτερικά στοιχεία της κάμερας», εξηγούν οι συγγραφείς. Αυτή η ευελιξία ανοίγει έναν κόσμο δυνατοτήτων, από τη βελτίωση των εμπειριών AR μέχρι τη βελτίωση της ικανότητας των αυτόνομων οχημάτων να ανιχνεύουν και να πλοηγούνται σε εμπόδια.
Για όσους είναι περίεργοι να γνωρίσουν το Depth Pro από πρώτο χέρι, ένα live demo είναι διαθέσιμο στην πλατφόρμα Hugging Face.
Αυτή η ευελιξία έχει σημαντικές επιπτώσεις σε διάφορους κλάδους. Στο ηλεκτρονικό εμπόριο, για παράδειγμα, το Depth Pro θα μπορούσε να επιτρέψει στους καταναλωτές να δουν πώς ταιριάζουν τα έπιπλα στο σπίτι τους, απλά στρέφοντας την κάμερα του smartphone τους στο δωμάτιο. Στην αυτοκινητοβιομηχανία, η δυνατότητα δημιουργίας χαρτών βάθους υψηλής ανάλυσης σε πραγματικό χρόνο από μία μόνο κάμερα θα μπορούσε να βελτιώσει τον τρόπο με τον οποίο τα αυτοκινούμενα αυτοκίνητα αντιλαμβάνονται το περιβάλλον τους, ενισχύοντας την πλοήγηση και την ασφάλεια.
«Η μέθοδος θα πρέπει ιδανικά να παράγει μετρικούς χάρτες βάθους σε αυτό το καθεστώς μηδενικής λήψης για να αναπαράγει με ακρίβεια τα σχήματα των αντικειμένων, τις διατάξεις της σκηνής και τις απόλυτες κλίμακες», γράφουν οι ερευνητές, τονίζοντας τη δυνατότητα του μοντέλου να μειώσει το χρόνο και το κόστος που σχετίζονται με την εκπαίδευση πιο συμβατικών μοντέλων Τεχνητής Νοημοσύνης.
Μια από τις πιο δύσκολες προκλήσεις στην εκτίμηση βάθους είναι ο χειρισμός των λεγόμενων «ιπτάμενων pixels», δηλαδή pixels που φαίνεται να αιωρούνται στον αέρα λόγω σφαλμάτων στη χαρτογράφηση βάθους. Το Depth Pro αντιμετωπίζει αυτό το ζήτημα κατά μέτωπο, καθιστώντας το ιδιαίτερα αποτελεσματικό για εφαρμογές όπως η τρισδιάστατη ανακατασκευή και τα εικονικά περιβάλλοντα, όπου η ακρίβεια είναι υψίστης σημασίας.
Επιπλέον, το Depth Pro υπερέχει στην ανίχνευση ορίων, ξεπερνώντας τα προηγούμενα μοντέλα στην ευκρινή οριοθέτηση αντικειμένων και των άκρων τους. Οι ερευνητές ισχυρίζονται ότι ξεπερνάει άλλα συστήματα «κατά έναν πολλαπλασιαστικό παράγοντα στην ακρίβεια των ορίων», γεγονός που είναι βασικό για εφαρμογές που απαιτούν ακριβή τμηματοποίηση αντικειμένων, όπως η ιατρική απεικόνιση.
Σε μια κίνηση που θα μπορούσε να επιταχύνει την υιοθέτηση του, η Apple έχει καταστήσει το Depth Pro ανοικτού κώδικα. Ο κώδικας, μαζί με τα προ-εκπαιδευμένα τμήματα του μοντέλου, είναι διαθέσιμος στο GitHub, επιτρέποντας στους προγραμματιστές και τους ερευνητές να πειραματιστούν και να βελτιώσουν περαιτέρω την τεχνολογία. Το αποθετήριο περιλαμβάνει τα πάντα, από την αρχιτεκτονική του μοντέλου μέχρι τα προ-εκπαιδευμένα σημεία ελέγχου, καθιστώντας εύκολο για άλλους να βασιστούν στο έργο της Apple.
Η ερευνητική ομάδα ενθαρρύνει επίσης την περαιτέρω διερεύνηση των δυνατοτήτων του Depth Pro σε τομείς όπως η ρομποτική, η κατασκευή και η υγειονομική περίθαλψη. «Δίνουμε τον κώδικα και τα σταθμίσματα στη διεύθυνση https://github.com/apple/ml-depth-pro», γράφουν οι συγγραφείς, σηματοδοτώντας ότι αυτό είναι μόνο η αρχή για το μοντέλο.
Πηγή: https://www.techgear.gr/
(Κώστας Παπαζαχαρίου, αναδημοσίευση 11/10/2024)
Join the Conversation →