Ο υποτιτλισμός εικόνας είναι ένα πολύπλοκο πρόβλημα που συνδυάζει τον τομέα της μηχανικής όρασης και της επεξεργασίας φυσικής γλώσσας. Στοχευει στην παραγωγή προτάσεων σε φυσική γλώσσα που περιγράφουν το περιεχόμενο κάποιας εικόνας. Ο υποτιτλισμός εικόνας έχει αρκετές εφαρμογές στον πραγματικό κόσμο με σημαντικό πρακτικό αντίκτυπο, από την παροχή βοήθειας σε χρήστες με προβλήματα όρασης έως προσωπικούς βοηθούς μέσω της αλληλεπίδρασης ανθρώπου-ρομπότ.
Η πρόοδος στον υποτιτλισμό εικόνας είναι μια σημαντική επιτυχία της Τεχνητής Νοημοσύνης. Έχει αναφερθεί ότι υπο ορισμένες μετρικές, όπως το BLUE ή το CIDEr, οι πιο σύγχρονες τεχνικές ξεπερνούν ακόμα και τις ανθρώπινες επιδόσεις.
Σε αυτή τη διπλωματική εργασία, υλοποιούμε και παρουσιάζουμε ένα μοντέλο βασισμένο σε τεχνικές μηχανικής μάθησης που συνδυάζει τις πιο σύγχρονες εξελίξεις στην μηχανική όραση και τη μηχανική μετάφραση και που μπορεί να χρησιμοποιηθεί για τη δημιουργία φυσικών προτασεων που περιγράφουν μια εικόνα. Συγκεκριμένα, χρησιμοποιήθηκε ένας συνδυασμός συνελικτικών νευρωνικών δικτύων μαζί με ανατροφοδούμενα νευρωνικά δίκτυα για την απόκτηση των επιθυμητών αποτελέσματων. Τα μοντέλα εκπαιδεύτηκαν έτσι ώστε να μεγιστοποιούν την πιθανότητα περιγραφής στόχου δεδομένης της εικόνας εκπαίδευσης.
Πειράματα σε ένα πολύ μεγάλο σύνολο δεδομένων εκπαίδευσης, όπως το MSCOCO που χρησιμοποιήθηκε σε αυτή τη διπλωματική, δείχνουν την ακρίβεια του μοντέλου και την ευχέρεια που αποκτά η γλώσσα αποκλειστικά μέσα από τις περιγραφές των εικόνων. Το μοντέλο, το οποίο ελέγθηκε ποιοτικά και ποσοτικά, είναι συχνά αρκετά ακριβές.