How Alexa Listens for Wake Words

By | October 26, 2020

Alexa มักจะฟัง แต่ไม่ได้บันทึกอย่างต่อเนื่อง จะไม่ส่งอะไรไปยังเซิร์ฟเวอร์คลาวด์เว้นแต่จะพูดคำที่คุณได้ยิน (Alexa, Echo หรือคอมพิวเตอร์) แต่การฟังคำตื่นนั้นยากกว่าที่คุณคิด

ฮาร์ดแวร์ Echo ไม่ได้ฉลาดเลย หากไม่มีอินเทอร์เน็ตคำขอหรือคำถามใด ๆ ที่คุณถามจะล้มเหลว เหตุผลนี้คือคำสั่งซื้อของคุณถูกส่งไปยังระบบคลาวด์เพื่อตีความและตัดสินใจ

Amazon ไม่ต้องการให้บันทึกทุกการสนทนาที่คุณมีต่อหน้าลำโพงอัจฉริยะ แต่เป็นเพียงคำสั่งที่คุณให้กับลำโพงอัจฉริยะ

ด้วยเหตุนี้ บริษัท จึงใช้คำว่า wake เพื่อดึงดูดความสนใจของลำโพงอัจฉริยะ เพื่อให้บรรลุเป้าหมายนี้ Amazon ใช้ไมโครโฟนที่มีเนื้อละเอียดรวมกันบัฟเฟอร์หน่วยความจำขนาดเล็กและการฝึกอบรมเครือข่ายประสาทเทียม

ไมโครโฟนที่ปรับแต่งอย่างละเอียดบ่งบอกถึงเสียงของคุณ

ลำโพงผู้ช่วยเสียงเช่น Echo และ Echo Dot มักจะมีไมโครโฟนในตัวหลายตัว ตัวอย่างเช่น Echo Dot มีเจ็ด อาร์เรย์นี้ช่วยให้อุปกรณ์มีความสามารถหลายอย่างซึ่งช่วยให้ได้ยินคำสั่งได้ยินจากระยะไกลโดยแยกเสียงพื้นหลังออกจากเสียง

หลังนี้มีประโยชน์อย่างยิ่งสำหรับการตรวจหาคำปลุก การใช้ไมโครโฟนหลายตัว Echo สามารถระบุตำแหน่งของคุณโดยเทียบกับตำแหน่งที่มันนั่งและฟังในทิศทางนั้นโดยไม่สนใจส่วนที่เหลือของห้อง

เมื่อใดก็ตามที่คุณใช้คำว่าปลุกคุณจะเห็นมัน ยืนบนขอบของจุดสะท้อนหรือจุดสะท้อนแล้วพูดคำว่าปลุก

สังเกตว่าวงแหวนอยู่ในแสงสีน้ำเงินเข้มจากนั้นจะเปลี่ยนมาทางคุณเป็นสีฟ้าอ่อน ตอนนี้ทำหลายขั้นตอนไปด้านข้างแล้วพูดคำว่าปลุกอีกครั้ง สังเกตว่าแสงสีฟ้าตามตัวคุณ

การรู้ว่าคุณอยู่ที่ไหนช่วยให้อุปกรณ์โฟกัสได้ดีขึ้นและปรับเสียงรบกวนที่มาจากที่อื่นได้

หน่วยความจำสั้นจะป้องกันไม่ให้ถือลำโพงมากเกินไป

อุปกรณ์ Echo มีพื้นที่เก็บข้อมูลมากมาย แต่ไม่ได้ใช้งานมากนัก ตามที่ Rohit Prasad รองประธานของ Amazon และหัวหน้านักวิทยาศาสตร์ของ Alexa Artificial Intelligence กล่าวว่า Echo สามารถเก็บเสียงได้เพียงไม่กี่วินาทีเท่านั้น

ด้วยการลดความจุ Amazon ไม่เพียง แต่ให้ความเป็นส่วนตัวมากขึ้นเท่านั้น (ทำให้เสียงของคุณมีพื้นที่น้อยลง) แต่ยังป้องกันไม่ให้ Echo ฟังการสนทนาทั้งหมดโดย จำกัด โฟกัสที่การค้นหาคำว่า Wake

ลองนึกภาพว่าคุณมีเทปความยาวสามวินาทีและเครื่องบันทึกเทป สมมติว่าถึงจุดสิ้นสุดเทปจะวนรอบที่จุดเริ่มต้นและอีกครั้ง

หากคุณเริ่มบันทึกการสนทนาสิ่งที่คุณพูดเมื่อสี่วินาทีที่แล้วจะถูกลบและบันทึกทันที นี่คือสิ่งที่ Amazon Echo ทำ

บันทึกอย่างต่อเนื่อง แต่จะลบทุกอย่างที่บันทึกไว้ในเวลาเดียวกัน สมาธิสั้นนี้หมายความว่าทุกคนสามารถได้ยินคำว่า “Alexa” อีกต่อไป

อย่างไรก็ตามเวลาสามวินาทีเพียงพอที่จะบันทึกตรวจสอบและดำเนินการอย่างถูกต้อง

การฝึก Neural Net ช่วยในการจับคู่รูปแบบ

ในที่สุด Amazon อาศัยการฝึกอบรมเครือข่ายประสาทเทียมเพื่อสอน Echo ถึงวิธีจับคู่รูปแบบ เช่นเดียวกับแมชชีนเลิร์นนิงรูปแบบอื่น ๆ Amazon ฝึกอัลกอริทึมโดยให้อาหารหลังจากอินสแตนซ์ของคำว่า Alexa (หรือคอมพิวเตอร์หรือ Echo) ขึ้นอยู่กับคำที่ บริษัท กำลังฝึกอบรม)

แนวคิดนี้ครอบคลุมถึงการผันเสียงและการออกเสียงทุกครั้ง แต่ยังอ้างอิงด้วย Amazon ต้องการให้คุณรับรู้ความแตกต่างนั้นเมื่อคุณคุยกับเธอเมื่อคุณกำลังพูดถึงเธอหรือบางทีเมื่อคุณกำลังคุยกับคนที่ชื่อ Alexa ไมโครโฟนบอกทิศทางยังช่วยให้บรรลุเป้าหมายนั้นด้วย

ด้วยเสียงสะท้อนทุกคำจะเล่นเสียงผ่านชั้นของอัลกอริทึม แต่ละเลเยอร์ได้รับการออกแบบมาเพื่อแยกแยะผลบวกปลอมโดยมองหาการเปลี่ยนแปลงของเสียงหรือเบาะแสอ้างอิง

หากเลเยอร์หนึ่งผ่านการตรวจสอบคำจะย้ายไปที่ถัดไป ในที่สุดเมื่ออุปกรณ์ภายในเครื่องตัดสินใจว่าได้ยินคำปลุกเครื่องจะเริ่มบันทึกและส่งสัญญาณเสียงไปยังเซิร์ฟเวอร์คลาวด์ของ Amazon

Amazon ใช้อัลกอริทึมสี่แบบ: หนึ่งสำหรับคำปลุกแต่ละคำ (Alexa, Computer, Echo) และอีกอันสำหรับ Alexa Guard ซึ่งใช้สำหรับเสียงที่เฉพาะเจาะจงเช่นการแตกของแก้วเช่นคำปลุก

แต่ถึงแม้จะมีการแข่งขัน Amazon ก็ดำเนินการสืบสวนที่ซับซ้อนมากขึ้น คุณสังเกตไหมว่าเมื่อมีคนพูดคำว่า Alexa ในรายการทีวีหรือโฆษณามักจะไม่ได้รับการตอบสนองจาก Echo? เนื่องจาก Amazon ทำการตรวจสอบระบบคลาวด์ด้วย

Badal ตรวจสอบกฎของการมองโลกในแง่บวก

เมื่อ บริษัท ต่างๆสร้างโฆษณาที่มี Alexa พวกเขาสามารถส่งเสียงไปยัง Amazon ได้ บริษัท เล่นเสียงผ่านอัลกอริทึมการจับคู่ที่คล้ายกันซึ่งใช้ในการระบุคำปลุก เมื่อมีการแสดงอินสแตนซ์ที่แน่นอนครบถ้วนแล้วอินสแตนซ์ดังกล่าวจะถูกเพิ่มลงในฐานข้อมูล

เมื่อคุณไปถึงระบบคลาวด์ซึ่งเป็นส่วนหนึ่งของกระบวนการเสียงสะท้อนของคุณจะมีข้อมูลเกี่ยวกับคำที่ได้ยินและตรวจสอบฐานข้อมูลนั้น