Поддержать проект
menu
Проект Объединённой еврейской общины Украины
Общество07 Мая 2024, 17:52

У Яд ва-Шем розробили ШІ-модель для пошуку нових імен жертв Голокосту у базі свідчень

Яд ва-Шем, зал імен
Зал імен Яд ва-Шем / Фото yadvashem.org

Інноваційний відділ Яд ва-Шем розробив мовну модель штучного інтелекту, здатну знаходити нові імена та ідентифікаційні ознаки у базі свідчень. Завдяки ШІ-моделі в Зал імен вже додано інформацію про 400 невідомих жертв Голокосту.

На сьогодні у Залі імен Яд ва-Шем зібрано 4,9 мільйона імен жертв Голокосту. Додавання кожного імені вимагає великої роботи, яка ведеться на основі бази свідоцтв. В базі на сьогодні зберігається близько 10 мільйонів записів із різних джерел у різних форматах та на різних мовах.

Ім'я додається до Зали лише після того, як воно буде ідентифіковане. На основі бази свідоцтв мають бути встановлені обов'язкові ідентифікаційні ознаки: ім'я, прізвище, ім'я батька чи матері, професія чи рік народження. Усі ознаки мають бути підтверджені експертами. Особливо важко ідентифікувати дітей. Вони часто згадуються навіть не на ім'я, а просто — «хлопчик» або «дівчинка».

База свідчень — важке до роботи джерело. У ній є дані різними мовами, аудіо та відеозаписи, багато джерел рукописні, що ще більше ускладнює роботу.

Експерти Яд ва-Шем знають, що у свідченнях зустрічаються численні згадки не лише того, хто це свідчення надав, а й багатьох інших жертв. Тому давно стояло завдання розгляду перехресних згадок. За ними можна встановити ідентифікаційні ознаки. Але вручну ця робота навряд чи здійсненна з огляду на стан джерел та обсяг бази. Причому сама база постійно поповнюється.

Вчені Яд ва-Шем навчили мовну модель, яка може розпізнавати такі перехресні згадки. Спочатку модель навчалася на даних, розмічених експертами, а потім почала шукати сама. Модель зробила роботу досить швидко та успішно. На основі даних, знайдених моделлю в Зал, додано 400 нових імен. Кожне ім'я додатково було підтверджено експертами. Ще приблизно стільки ж імен чекають на підтвердження. За оцінкою експертів, кожні 20 тисяч свідчень у базі містять інформацію, принаймні, про сім нових імен. Важливим результатом роботи ШІ-моделі має стати уніфікація самої бази свідоцтв та підготовка їх коротких описів.

Цдака — основа мира

Пожертвуйте на деятельность

Объединённой еврейской

общины Украины

Поддержать