מחפשים אנשים באינטרנט? זו השיטה של חוקרי אוניברסיטת בן גוריון

$(function(){setImageBanner('ee8dd28c-8744-430f-ab5f-48810513c754','/dyncontent/2021/11/30/f3db6c97-48e5-4e0c-9cbb-c844ac948e03.jpg',13847,'',525,78,false,33969);})

שם פרטי ומשפחה כבר לא מספקים בכדי לאתר אדם במנועי החיפוש באינטרנט. אלגוריתם משולב שפיתחו חוקרים מאוניברסיטת בן-גוריון בנגב יסייע לכם באיתור יעיל של אנשים במנועי החיפוש- כך תעשו את זה נכון

חברות המאתרות אנשים במסדי נתונים, חיפוש מועמדים לעבודה, איתור לקוחות וגם בקרב יחידים שברצונם לאתר קרובי משפחה וכיוצא בזה, בקרב כל אלו עולה צורך לאתר שמות של אנשים במנועי חיפוש. איתור אדם באמצעות שמו היא פעולה שגרתית המתבצעת כיום באינטרנט. אולם מנועי החיפוש השונים מספקים ביצועים נמוכים לשאילתות המכילות שמות פרטיים או שמות משפחה, כך שבמקרים מסוימים יהיה כמעט בלתי אפשרי למצוא אדם על פי שמו באינטרנט. 

הסיבה לביצועים הנמוכים הקיימים במנועי החיפוש, נובעת מהעובדה שבניגוד למילה כללית, כדוגמא המילה 'כדור', שיש לה דרך אחת ויחידה להיכתב, ישנן מספר דרכים אפשריות ולגיטימיות לכתוב שמות פרטיים ושמות משפחה. למשל, Victor ו- ViktorSofia ו-Sophia ועוד.  אי לכך, נוצר צורך בכלי יעיל שישפר את הצעת השמות הנרדפים בהינתן שם מהמשתמש. רוב הטכניקות שמנועי החיפוש השונים משתמשים בהן בימינו על מנת להציע שמות נרדפים, מתבססות על קידוד פונטי, מציאת דמיון בין זוג מילים, אולם אלה לרוב מספקות ביצועים חלשים.  

צילום אילוסטרציה Shutterstock

על מנת להתמודד עם הבעיה, ד"ר מיכאל פיירד"ר רמי פוזיס והדוקטורנט אביעד אלישר מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, פיתחו צמד אלגוריתמים פורצי דרך בתחום אחזור השמות, המנסים לפתור את הבעיה משתי זוויות שונות. "הנתונים המרשימים שהתקבלו מדגישים את פריצת הדרך ואת הפוטנציאל העצום בשיטות המוצעות על מנת להקל במציאת אנשים על סמך שמות נרדפים", אמר ד"ר מיכאל פייר

האלגוריתם הראשון שנקרא  (GRAFT)GRAph based on names derived from digitized Family Trees מנצל מידע היסטורי שנאסף מאתרים גנאלוגיים (אתרים של שושלות יוחסין), בשילוב עם אלגוריתמים מעולם הרשתות (Network Science). אלגוריתם זה מציע מגוון אפשרויות איות (לדוגמא: Sophia ו-Sofia) וקיצורי שמות (לדוגמא: Sophie עבור השם Sofia) לשמות המסופקים כקלט מהמשתמש. דבר זה מתבצע באמצעות גרף מבוסס שמות, הנגזר מעצי משפחה דיגיטליים, הנבנים מהמידע ההיסטורי שמסופק. השמות האלטרנטיביים מוצעים מהגרף שנבנה, תוך "טיול" על הגרף ובחירה מתוחכמת של האופציות המתגלות תוך כדי הטיול, כמתואר באילוסטרציה להלן: קישור לגרף שמות עבור השם ג'ון 

 ד"ר מיכאל פייר. צילום: דני מכליס, אוניברסיטת בן-גוריון בנגב

האלגוריתם השני נקרא SpokenName2Vec. בניגוד לאלגוריתם הראשון, המנצל תבניות לאורך שושלות היסטוריות על מנת להציע שמות נרדפים, אלגוריתם זה, מנסה לפתור את הבעיה תוך שימוש בקול אוטומטי ולמידה עמוקה (Deep Learning). שהרי שמות דומים אומנם נכתבים שונה, אך נשמעים דומה (למשל Victor ו-ViktorElisabeth ו-Elizabet).  

במקרה זה, הציעו החוקרים ייצוג חדשני ופורץ דרך לשמות, אשר לוקח בחשבון את הצורה בה בני אדם מבטאים את השם בשפה מסוימת ובמבטא מסוים. ייצוג חדשני זה מאוד דינמי ומאפשר לזהות שמות שנהגים בצורה דומה, אך לאו דווקא נכתבים באותה הצורה: קישור לתרשים זיהוי השם באמצעות היגוי 

 ד"ר רמי פוזיס. צילום: דני מכליס, אוניברסיטת בן-גוריון בנגב

השיטות הללו נבנו על סמך מקור מידע עצום (dataset) הכולל כ- 17 מיליון בני אדם, ומכיל בתוכו מעל ל 700,000 שמות פרטים ו-500,000 שמות משפחה ייחודים. השיטות נבחנו על שלושה מקורות מידע מקוטלגים של שמות פרטיים ומשפחה הכוללים אלפי ועשרות אלפי שמות פרטיים ושמות משפחה מאומתים. ביצועי השיטה הושוו ל-10 אלגוריתמים שונים הכוללים קידוד פונטי, דמיון מילים ואלגוריתמים מבוססי למידה עמוקה ולמידת מכונה מהשנים האחרונות. האלגוריתמים המוצעים הציגו עליונות מובהקת באיתור השמות ופורסמו בכתבי העת היוקרתיים – IEEE Transactions on Knowledge and Data Engineering ו-Knowledge-Based Systems

"בימים אלו אנו שוקדים על ייצור אתר שיהיה נגיש לכולם ויאפשר לאתר אנשים באמצעות האלגוריתמים שפיתחנו", בישר ד"ר רמי פוזיס

אביעד אלישר. צילום: גילה אלישר

אנו מכבדים זכויות יוצרים ועושים מאמץ לאתר את בעלי הזכויות בצילומים המגיעים לידינו. אם זיהיתים בפרסומינו צילום שיש לכם זכויות בו, אתם רשאים לפנות אלינו ולבקש לחדול מהשימוש באמצעות כתובת המייל:[email protected] 



$(function(){setImageBanner('00462f1c-65d0-41ac-94e4-cdbfc124701e','/dyncontent/2021/11/22/0b8b1767-b862-40eb-a4e9-65378ace5c0b.gif',13779,'',525,78,false,33971);})
 
 
x
pikud horef
פיקוד העורף התרעה במרחב אשדוד 271, אשדוד 271, אשדוד 271
פיקוד העורף מזכיר: יש לחכות 10 דקות במרחב המוגן לפני שיוצאים החוצה