Прогнал через нейросеть базу данных старой библиотеки… результат убил наповал

В общем, тут такое дело. Реально забавный случай приключился пару недель назад. Решил я вспомнить молодость, так сказать, и залез в один архивный проект, где мы ещё в универе занимались оцифровкой старой библиотеки. Тогда это казалось титаническим трудом, руками все перебивали, каталоги составляли. Ну, вы понимаете, те времена.

Сейчас, конечно, все иначе. Нейронки шагнули далеко. И вот, чисто ради эксперимента, взял я кусок этой базы — пару тысяч карточек с описаниями книг по истории техники XIX века — и скормил её одной из последних моделей обработки текстов. Цель была — попытаться автоматически категоризировать их хоть как-то, ну, там, по отраслям, по периодам.

Что произошло дальше — это просто космос. Я ожидал, что она там что-то накосячит, перепутает, выдаст пару абсурдных классификаций. Но нет. Она не просто категоризировала. Она начала выявлять какие-то скрытые связи между работами! Например, показала, что статья об усовершенствовании парового двигателя в 1870-х годах напрямую связана с разработкой новых сплавов, описанных в книге 1895 года, хотя прямой ссылки в самих описаниях не было. Это как будто она прочитала между строк, поняла логику технологического развития.

Более того, модель предложила несколько гипотез о том, какие именно научные исследования того времени могли послужить основой для этих разработок, опираясь только на контекст сохранившихся текстов. Это реально новое слово в анализе исторических данных. Такие инновации реально меняют подход к изучению прошлого. В итоге, вместо простой каталогизации, я получил с десяток потенциальных тем для серьезных научных исследований, о которых раньше и не задумывался.

Технологии и инженерия / IT и искусственный интеллект