MIT представляет инструмент искусственного интеллекта для улучшение интерпретации и доступности диаграмм

Дата:18.07.2023
Источник:MIT Unveils Revolutionary AI Tool: Enhancing Chart Interpretation and Accessibility with Adaptive, Detail-Rich Captions...
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

Автор поста: Нихарика Сингх (Niharika Singh), стажёр-технический консультант в Marktechpost. Она учится на третьем курсе бакалавриата и в настоящее время получает B.Tech в Индийском технологическом институте (ИИТ) в Харагпуре.

В качестве важного шага на пути к повышению доступности и понимания сложных диаграмм и графиков команда исследователей из Массачусетского технологического института (MIT) создала новаторский набор данных под названием VisText. Этот набор данных призван произвести революцию в системах автоматического создания субтитров для диаграмм путём построения моделей машинного обучения для генерации точных и семантически полных подписей, которые точно описывают поведение данных и сложные закономерности.

подготовка эффективных субтитров для диаграмм — трудоёмкий процесс, результаты которого часто необходимо улучшать для предоставления дополнительной контекстной информации.

Методы автоматизированного создания субтитров изо всех сил пытались задействовать когнитивные функции, которые улучшают понимание. Исследователи из MIT обнаружили, что их модели машинного обучения, созданные с использованием набора данных VisText, стабильно создавали субтитры, которые превосходили субтитры других автоматизированных систем для генерации субтитров. Получаемые подписи были точными и разнообразными по сложности и содержанию, удовлетворяя потребности разных пользователей.

Источником вдохновения для VisText послужила предыдущая работа в группе визуализации MIT, которая была развита в направлении исследования ключевых элементов генерации хороших описаний к диаграммам. Их исследование показало, что зрячие пользователи и люди с нарушениями зрения или слабым зрением проявляют различные предпочтения в отношении сложности семантического описания. Опираясь на этот анализ, ориентированный на человека, исследователи построили набор данных VisText, включающий более 12 000 диаграмм, представленных в виде таблиц данных, изображений, графов сцен и соответствующих им описаний.

Разработка эффективных систем автоматического создания субтитров сопряжена с многочисленными проблемами. Существующие методы машинного обучения подходили к субтитрам к диаграммам аналогично субтитрам к изображениям, но интерпретация естественных изображений значительно отличается от распознавания диаграмм. Альтернативные методы полностью игнорировали визуальное содержание и полагались исключительно на базовые таблицы данных, часто недоступные после публикации диаграммы.

Для того чтобы преодолеть эти ограничения, исследователи использовали в качестве представления графы сцен, построенные по изображениям диаграмм. Граф сцены — это структура данных, которая содержит логическое и зачастую пространственное представление композиции ( сцены) 2D или 3D графических объектов. Граф сцены обычно представляет собой набор узлов такой структуры, как граф или дерево. Преимущество использования графов сцен при автоматизации создания субтитров для диаграмм заключалось в том, что они содержали исчерпывающую информацию, будучи более доступными и совместимыми с современными большими языковыми моделями.

С помощью VisText исследователи подготовили пять моделей машинного обучения для автоматического создания субтитров, исследуя различные представления, включая изображения, таблицы данных и графы сцен. Они обнаружили, что модели, обученные с помощью графов сцен, работают так же, если не лучше, как модели, обученные с помощью таблиц данных, что свидетельствует о потенциале графов сцен как более перспективного представления. Кроме того, обучая модели отдельно с низкоуровневыми и высокоуровневыми подписями, исследователи позволили моделям адаптироваться к сложности генерируемых субтитров.

Чтобы обеспечить точность и надежность своих моделей, исследователи провели подробный качественный анализ, классифицировав распространённые ошибки, допущенные их наиболее эффективным методом. Это исследование имело жизненно важное значение для понимания тонких нюансов и ограничений моделей, проливая свет на этические соображения, связанные с разработкой систем автоматического создания субтитров. Генеративные модели машинного обучения предоставляют эффективный инструмент для автоматического создания подписей, но если подписи генерируются неправильно, то это приведёт к распространению дезинформации. Чтобы решить эту проблему, исследователи предложили предоставить системы автоматического создания субтитров в качестве инструментов разработки, позволяя автора редактировать и проверять подписи, тем самым смягчая потенциальные ошибки и этические проблемы.

Продолжая работу, команда стремится усовершенствовать свои модели, чтобы уменьшить количество распространённых ошибок. Исследователи нацелены на расширение набора данных VisText за счёт включения более разнообразных и сложных диаграмм, например, с столбцами с накоплением или несколькими линиями. Кроме того, они стремятся получить представление о процессе обучения таких моделей, чтобы углубить свое понимание данных диаграмм.

Разработка набора данных VisText представляет собой значительный прорыв в автоматизации процесса создания субтитров для диаграмм. Благодаря постоянным достижениям и исследованиям системы автоматического создания субтитров на основе машинного обучения обещают произвести революцию в доступности и понимании диаграмм, сделав жизненно важную информацию более инклюзивной и доступной для людей с нарушениями зрения.

Для получения подробной информации ознакомьтесь с публикацией VisText: A Benchmark for Semantically Rich Chart Captioning (PDF), репозиторием vistext на Github и статьей Массачусетского технологического института.


Метки


Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024