גם בעברית: ניסינו את המודל הקולי של ChatGPT והעתיד כבר כאן

העוזר הקולי החדש של OpenAI יהיה מותאם אישית למשתמש, יכיר את ההעדפות שלו ויידע גם לבחור את האינטונציה המתאימה בהתאם לאופי השיחה • בעקבות הסערה שהתעוררה ברשתות עם הצגת המודל החדש, בדקנו את המודל הזמין כיום בשוק

אילוסטרציה: Shutterstock
אילוסטרציה: Shutterstock

בדיקה טכנולוגית

איך ניתן לשפר שירותים דיגיטליים? אילו מוצרים חדשים יש היום בשוק, ומה איכותם לעומת המתחרים? כיצד פותרים בעיות טכנולוגיות? מדי שבוע המדור ינסה לענות על שאלות אלה ודומות להן. אם נתקלתם בתקלות ואתם זקוקים לעזרה, או שאתם מעוניינים שנסקור מוצרים מסוימים, אתם מוזמנים לפנות למייל: nevo-t@globes.co.il

בין ההכרזות המעניינות ביותר בתעשיית הבינה המלאכותית נמנים העוזרים הקוליים של OpenAI וגוגל. עוזר קולי מהסוג הזה, שמבוסס על מודלים של AI גנרטיבי, משנה את כללי המשחק בתחום כי בניגוד לעוזרות המוכרות, סירי ואלקסה, הוא מותאם אישית למשתמש.

השבוע השיקה OpenAI את המודל GPT-4o, שמשפר פלאים את היכולת לשוחח עם ChatGPT. המוצר עדיין לא זמין למשתמשים, אך בימים האחרונים שיחקנו עם המוצר שכן זמין כעת, המבוסס על GPT-4. אתגרנו אותו, מתחנו את הגבולות, ובדקנו עד כמה הוא מרשים ואיך היכולות שלו בעברית.

שתי ענקיות, מודל עסקי שעומד למבחן ויכולות דמיוניות: מרוץ ה-AI בנקודת רתיחה
בדיקה טכנולוגית | סוללת הטלפון מתרוקנת במהירות? כך תאריכו את זמן השימוש בה

ChatGPT בקול לעזור בכל דרך

רבים כבר מכירים את יכולות ה־ChatGPT, צ'אטבוט שמדמה שיחה עם בינה מלאכותית בצורה פרקטית, ויודע לספק מענה לשאלות ולתת מידע רב. ברגע שהופכים אותו לעוזר קולי, כבר ממש אפשר לנהל איתו שיחה קולית.

העוזר הזה מבוסס על מודל GPT-4 המתקדם של OpenAI, ואם תשאלו אותו מה מטרתו הוא ישיב כי "חשוב להדגיש שאני כאן כדי לעזור בכל דרך אפשרית - ממתן תשובות לשאלות כלליות ועד לעזרה בפרויקטים יותר מורכבים כמו כתיבת מאמרים, הסברים על נושאים מסובכים או אפילו סתם שיחה נעימה".

בדומה לצ'אטבוט, גם כאן המודל מנסה לספק מידע מעודכן בכל נושא ובשפות שונות - ביניהן אנגלית, רוסית, צרפתית, ספרדית ואפילו עברית. המודלים עתידים להשתכלל, אבל כבר כעת הדיבור מהווה יתרון מרכזי, מאחר שהוא יותר מהיר ונוח, במיוחד אם מחפשים תשובה מיידית או שמעוניינים בשיחה זורמת - וזו תשובה שהמודל עצמו נתן לנו לשאלה הזו.

ב-GPT-4o אפשר יהיה לראות שיפור יכולות משמעותי: הוא יהיה הרבה יותר מהיר ואינטואיטיבי, וגם יכולות העברית שלו צפויות להשתפר. בין היכולות שהוצגו: ניתן יהיה לפתוח את המצלמה, לסמן אובייקט ולבקש תיאור של המוצר.

הביצועים לשנות את הטון

היכולות של העוזרים הקוליים מוכרות לנו כבר מסירי, אלקסה ושאר הכלים הקיימים, אך היכולות שמציגים ב־OpenAI מתעלות על כך בהרבה מובנים. זה לא רק לספק את המענה הנדרש בתוך שניות, אלא גם להקפיד על צורת ההנגשה.

למעשה, אפשר לבחור בין חמישה קולות שונים, ולצד זאת ניתן דגש על האינטונציה של המודל. הוא יודע לשנות את הטון, להשתהות אם צריך, לצחוק או להיות דרמטי יותר - מה שהופך את כל החוויה להרבה יותר אנושית ומזמינה. במובן הזה, זה מרגיש כאילו מדברים עם חבר חדש, שרוצים להכיר טוב יותר.

המציאותיות של המודל מכניסה חיים לשיחה, ומייצרת חוויה חזקה כאילו שמדברים עם אדם אמיתי, מה שמאפשר "להרגיש" את השיחה ולהאמין במוצר - וכל זה כשמדברים עם המודל בשפה האנגלית.

החלטנו לנסות את המוצר גם בעברית. בדומה לאנגלית, התשובות שקיבלנו היו מפורטות ונלקחו מרחבי האינטרנט. אבל אחד הדברים החשובים הוא צורת ההגשה: כשמדברים עם המודל בעברית, הוא מדבר במבטא אמריקאי־ישראלי, ולא מספיק מפותח כמו המודל באנגלית.

בנוסף, השפה העברית קשה יותר מאנגלית, כשיש הטיות של נקבה או זכר, רבים או יחיד. לא מעט פעמים המודל טעה בטעויות משעשעות ומוזרות, אבל נראה שהכיוון חיובי ושבמודל החדש היכולות ישתפרו.

אמינות האם לסמוך על המידע?

חשוב מאוד לדבר על נושא האמינות במודלי הבינה המלאכותית. נסביר: הבעיה לא קשורה להנגשת המידע, אלא לאופן שבו המודל מתאמן על מידע, ומה הוא עושה כשחסר לו מידע בנושא מסוים. האם הוא יאותת למשתמש כי המידע חסר, או שינסה לספק מידע תמיד?

עם עוזרים אישיים מדובר בעניין קריטי יותר, מכיוון שלהבדיל מטקסט שצריך לקרוא ולהתעמק בו, אם מנגישים את המידע בצורת דיבור, אנשים עלולים להאמין למידע שהוא למעשה לא נכון.

צריך לומר: כלי בינה מלאכותית היום אינם מושלמים, והם יכולים לטעות לא מעט. החברות השונות פועלות כדי להתמודד עם הכשלים הללו, ואין ספק שהמטרה שלהן זה להצליח לספק מידע מהימן ככל האפשר.

גם בעת בדיקת הכלי החדש זיהינו כמה טעויות, בדרך כלל אם נשאלות שאלות נישתיות יותר או אם אין למודל מספיק מידע בנושא בשפה העברית, לדוגמה. ככל שהמידע יתקבל ממקורות אמינים ומהימנים יותר, כך גם הסיכוי של המודל לספק מענה נכון ומדויק עולה.

במובן הזה, חשוב לא לקחת את התשובות שהמודלים האלו מספקים כמובנות מאליהן, גם כיום. אין ספק שהחברות משתפרות בנושא, אבל ה'הזיות' עדיין כאן. ההמלצה הטובה ביותר היא לבדוק גם במקורות מידע אחרים, ולוודא מה התשובה הנכונה.

המטרה עוזר אישי אמיתי

כל החברות העוסקות בתחום מעוניינות לייצר עוזר קולי מבוסס בינה מלאכותית, שיוכל לתפקד כעוזר אישי שמכיר את ההעדפות והצרכים של המשתמשים - כולל מה המאכלים האהובים, מאילו מקומות להזמין באיזה שעות, ומה אסור שיהיה באוכל.

המודלים האלו יוכלו לשלוח תזכורות והתראות בדיוק לפי מה שאתם צריכים, ואף לבצע עבורכם משימות שגרתיות - מהזמנת אוכל דרך קביעת פגישות ועוד. כמובן שזה גם עלול להוביל לבעיות פרטיות ואבטחה, והחברות צריכות להשקיע גם בכך שהמידע האישי יישמר. 

המתחרה העיקרי Project Astra של גוגל

בימים האחרונים הכריזה גוגל על העוזר הקולי Project Astra, שילוב טכנולוגיות בינה מלאכותית שמציע תוצאות מותאמות אישיות ורלוונטיות למשתמשים. העוזר הזה יכול להבין את כוונות המשתמש, לשלב בין וידיאו לאודיו, וללמוד את ההיסטוריה, העדפות והצרכים של המשתמשים. בדמו שהוצג על ידי גוגל, אפשר להפעיל מצלמה ולבקש מהמודל מידע על האובייקטים שהוא רואה. לדוגמה, "איפה השארתי את המשקפיים שלי?".

חשוב לציין ש-Astra עדיין נמצאת בשלבי פיתוח ואינו זמין לציבור. כשהמודל יעבוד כמו שצריך, הצלחתו יכולה לפגוע בגוגל - אם אנשים ישתמשו בו וידלגו על מנוע החיפוש שלהם, הם לא יעברו דרך התוצאות הממומנות.