წარმოიდგინეთ, რომ კომპიუტერი ხართ: მეგობრებს საუბარი მოუწევთ თქვენთან კლავიატურაზე დაბეჭდვით. თუ თქვენ გამარჯობის თქმა გსურთ, პასუხის გაცემა დაგჭირდებათ. მეცნიერები ოცნებობდნენ მანქანებზე, რომლებსაც საუბარი შეეძლებოდათ, როგორც ადამიანებს, მიუხედავათ იმისა, რომ ხმის ამომცნობი კომპიუტერული ხელსაწყოები ათწლეულებია არსებობს და ჩაშენებულია კომპიუტერებსა თუ სმარტფონებში, მხოლოდ ცოტა ჩვენგანი ვიყენებთ მას, რატომ? იმიტომ, რომ არ ვიწუხებთ თავს მოსასინჯად, არ გვჯერა, რომ კომპიუტერს შეუძლია კომპლექსური ადამიანის ხმის გაგება. ბევრი მეცნიერი, მათემატიკოსი და ლინგვისტი ცდილობს ადამიანის საუბრის ანუ ამ კომპლექსური პრობლემის გადაჭრას, როგორი წარმატებით ახერხებენ ამას? შევძლებთ თუ არა ჩვენს კომპიუტერებთან საუბარს უახლოეს მომავალში? მოდით ვნახოთ დეტალურად!

ენა ადამიანს აყენებს, მცოცავ და მხოხავ ცხოველებზე წინ. უფრო ჭკვიანი ცხოველები, ძაღლი და დელფინი ხმით კომუნიკაციას ახდენს, მაგრამ მხოლოდ ადამიანს შეუძია ენის კომპლექსურობით დატკბეს. რამდენიმე ათასეული სიტყვით და ციფრებით ვახერხებთ ჩვენი ფიქრების და აზრების გამოხატვას.

საუბრისას ჩვენ ხმას გამოვცემთ ანუ მცირე ხმოვან პაკეტებს, რომელსაც ფონებს ეძახიან, სიტყვა კატა გამოსცემს ფონებს, რომელიც ხმა “კ””ა””ტ”ა”-ს კორესპონდაციას ახდენს, ფენომები არის ხმის ლეგოები, ბლოკები, რომლისგანაც ყველა სიტყვა აიგება.ფონებსა და ფენომებს შორის სხვაობა კომპლექსურია, მაგრამ განსხვავების ადვილი მეთოდი არსებობს: ფონები ხმის ბიტებია, რომელსაც ვსაუბრობთ, ხოლო ფენომები იდეალი ბიტებია ხმის, რომელსაც ჩვენს გონებაში ვინახავთ (არ ვიძახით).

კომპიუტერები და კომპიუტერული მოდელები ფენომებით თამაშობენ, მაგრამ ნამდვილი ხმის, საუბრის ბიტები, რომელსაც აანალიზებენ ფონებია. როდესაც საუბარს ვუსმენთ, ჩვენი ყურები იჭერენ ფონებს, რომლებიც ჰაერში დაფრინავენ ჩვენი გონება მათგან აგებს სიტყვას,იდეას,წინადადებას, ისე სწრაფად, რომ ხანდახან ვიცით კიდეც რის თქმას აპირებს ადამიანი, ჩვენი საოცარი გონება მაგიურია. გვგონია, რომ კომპიუტერებიც ასე მალე, ადვილად მოახდენენ დეკოდირებას ჩვენი სიტყვების. ეს ასე ადვილი არ არის.

მოსმენა უფრო რთულია ვიდრე ჩანს (ან ისმის): ვაწყდებით სხვადასხვა პრობლემებს გზად კერძოდ:

  • როდესაც ვინმე საუბრობს ქუჩაში რთულია მისი სიტყვების გარჩევა (აკუსტიკური სიგნალები) უკანა ფონის ხმაური.
  • როდესაც ხალხი სწრაფად საუბრობს და ერთმანეთს აბამს სიტყვებს, როგორც ნაკადს, როგორ გავიგოთ სად მთავრდება სიტყვა და სად იწყება ახალი?
  • ყველას ხმა განსხვავებულია, ჩვენი ხმა იცვლება მომენტებში. როგორ იგებს ჩვენი გონება ჩვენს და 10 წლის გოგონას მიერ ნათქვამ იგივე სიტყვას?
  • ერთმანეთის მსგავსი სიტყვები, რომლებიც ერთნაირად ჟღერს, მაგრამ სხვადასხვა რამეს აღნიშნავს, როგორ ახერხებს ჩვენი გონება იმის გაგებას თუ რომელი იგულისხმა მოსაუბრემ?
  • რას იტყვით წინადადებების შესახებ, რომელიც არასწორად გავიგონეთ? ორის მაგივრად ოთხი და ა.შ.

ამის გარდა სინტექსური პრობლემების და სემანტიკების (სიტყვის მნიშვნელობა) პრობლემების წინაშე ვდგებით, ჩვენს გონებას ეხმარებიან სიტყვის დეკოდირებაში, რომელსაც ვიგებთ. რომ შევაჯამოთ ვხედავთ, თუ რამხელა სირთულეა სიტყვის ამოცნობა, გაგება რეალურ დროში, რაც გონების დიდებული ძალის მაჩვენებელია.

როგორ ახერხებენ კომპიუტერები ხმის ამოცნობას?

ხმის ამოცნობა კომპიუტერული მეცნიერების ერთ-ერთი კომპლექსური მხარეა, რადგანაც ინტერდისციპლინურია: მოიცავს კომპლექსურ ლინგვისტურ,მათემატიკურ და კომპიუტერულ მიქსს. არსებობს 4 განსხვავებული მიდგომა, თუ როგორ ახერხებს კომპიუტერი ნათქვამი სიტყვის ტექსტად ქცევას:

  1. ჩვეულებრივი კვალის დამთხვევით (როდესაც ყოველი სიტყვა ამოიცნობა, როგორც თქვენ მაგიდას და ხეს ამოიცნობთ აანალიზებთ თუ რას უყურებთ).
  2. კვალის ანალიზი (სიტყვები ბიტებად იშლება და ამოიცნობა).
  3. ენის მოდელირება და სტატისტიკური ანალიზი.
  4. ხელოვნური ნეურალური ქსელები (ტვინის მსგავსი კომპიუტერული მოდელები, რომლებიც შეიძლება სანდონი იყონ სიტყვის ხმის კვალის ამოცნობაში).

პასუხის დატოვება