28 พฤศจิกายน 2022
โกวาจี AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

จุฬาฯ ออกแบบ “โกวาจี (Gowajee)” AI แปลงเสียงเป็นข้อความ-แปลงข้อความเป็นเสียง มีความแม่นยำเป็นธรรมชาติ เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า จ่อประยุกต์ใช้กับงานอีกหลายรูปแบบ
‘OK, Google’

เทคโนโลยี  ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการแทนการสัมผัสแป้นพิมพ์อักษร แต่เคยรู้สึกไหมว่า AI voice เหล่านั้นดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนักหลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI ที่พัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษจากปัญหาดังกล่าว ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยและทีม ได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะเพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้าAI ภาษาไทยด้วยฐานข้อมูลเสียงของคนไทยจากความตั้งใจสร้าง AI แปลงเสียงและข้อความสัญชาติไทย อาจารย์เอกพลและทีมงานได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน“เราเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการ มีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ” อ.เอกพล กล่าวฐานข้อมูลเสียงภาษาไทยจำนวนมากดังกล่าวช่วยให้ทีม Gowajee พัฒนานวัตกรรม AI ภาษาไทยที่มีความแม่นยำในภาษา และสามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ“ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราอ่านได้เลยโดยไม่ต้องไปถอดความเอง” อ.เอกพล แนะ2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่เสียงอ่านที่พัฒนาขึ้นโดยโมเดลของ Gowajee จะมีความเป็นธรรมชาติมากกว่า เนื่องจากมีฐานข้อมูลภาษาไทยจำนวนมากกว่านั่นเอง3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

โกวาจี AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้าตอบโจทย์ระบบคอลเซ็นเตอร์

นับตั้งแต่ที่เริ่มพัฒนา Gowajee ก็มีหน่วยงานต่างๆ ทั้งมหาวิทยาลัย ภาครัฐ และเอกชน นำเทคโนโลยีนี้ไปใช้แล้ว โดยเฉพาะในงานการให้บริการคอลเซ็นเตอร์ ทั้งถอดเสียงเป็นข้อความ และถอดข้อความเป็นเสียง“ที่ผ่านมา ลูกค้าส่วนมากมีความพึงพอใจในความถูกต้องของ Gowajee ที่ดีกว่าของเดิมที่เคยใช้ และในแง่ราคา ก็จับต้องได้มากกว่า ในส่วนของข้อผิดพลาด เรามั่นใจว่าต่อไป เมื่อระบบมีข้อมูลเพิ่มมากขึ้นเรื่อยๆ ความผิดพลาดที่มีอยู่ในปัจจุบันจะลดลงเรื่อยๆ”ค้นความหมายในเสียง Gowajee ช่วยคัดกรองผู้ป่วยซึมเศร้าจากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของจุฬาฯ“DMIND เป็นโจทย์ที่ท้าทายเพราะนอกจากจะต้องถอดความแล้ว ยังต้องใช้โมเดลจำแนกอารมณ์จากเสียงพูดเพื่อนำไปวิเคราะห์หาความหมายของกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี เราอาจไม่จำเป็นต้องถอดความให้ถูกต้องทุกคำ แต่จับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา”Gowajee ประยุกต์ช่วยงานอะไรได้อีกบ้างowajee และเทคโนโลยี AI ถอดความภาษายังสามารถประยุกต์ใช้ในพื้นที่ชีวิตและการทำงานได้หลากหลาย อาทิ เป็นผู้ช่วยทันตแพทย์ในการจดบันทึกข้อมูลคนไข้ ระหว่างที่ทันตแพทย์กำลังใช้เครื่องมือทำฟันให้คนไข้ ก็พูดบอกสิ่งที่ต้องการบันทึกให้ Gowajee แปลเป็นข้อความช่วยตรวจหาความเสี่ยงของผู้ป่วยที่อาจมีภาวะ stroke เมื่อเริ่มพูดไม่ชัดช่วยเป็น Coach ตั้งคำถามให้ผู้ใช้งานตอบและวิเคราะห์เป้าหมายในการใช้ชีวิตจากการบันทึกการสัมภาษณ์ทางวีดิโอ เป็นส่วนที่ใช้ในการแนะแนวนักศึกษาหรือสำหรับองค์กรที่กำลังรับคนเข้าทำงานช่วยแปลงเสียงและขยายเสียงพูดให้ผู้สูงอายุสามารถได้ยินเสียงได้ชัดเจนยิ่งขึ้น นอกจากนี้ หลายคนอาจคิดถึงการประยุกต์ใช้ Gowajee กับการเรียนและการประชุม ในการแปลงข้อมูลเสียงเป็นข้อความ เป็นต้นข้อมูลปลอดภัย มั่นใจ Gowajee“ความปลอดภัยของข้อมูล” คือจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ อ.เอกพล กล่าวให้ความมั่นใจว่า “โดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการแต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ซึ่งข้อมูลของผู้ใช้ ข่าวเทคโนโลยี  โดยเฉพาะธนาคารที่ต้องการความปลอดภัยของข้อมูล ก็จะไม่หลุดออกไปภายนอกแน่นอน”“AI ไม่ได้ disrupt เราขนาดนั้น ตัวเราเองต่างหากที่ disrupt ตัวเองมากกว่า สังคมสูงวัย ปัญหาประชากรวัยแรงงานขาดแคลน เหล่านี้ต่างหากกำลังบีบเราให้ต้องสร้างเทคโนโลยีเพื่อทุ่นแรงและทดแทนงานบางอย่างที่อนาคตเราอาจจะหาคนมาทำไม่ได้ ผมไม่ได้คาดหวังว่างานของผมจะช่วยเหลือผู้สูงอายุในปัจจุบัน แต่ผมมองว่าในอนาคต ตัวผมเองจะกลายเป็นผู้สูงอายุ ผมคงจะได้ใช้งานเทคโนโลยีเหล่านี้”

แนะนำข่าวเทคโนโลยี  อ่านเพิ่มเติมคลิ๊กเลย : Adobe เปิดตัว Photoshop Elements 2023 และ Premiere Elements 2023 เพื่อมือใหม่โดยเฉพาะ