More

    Как вытащить данные из текста с помощью ChatGPT?

    Использование ChatGPT в журналистике данных требует некоторой подготовки и обучения, хотя в целом всё не так сложно. Прежде всего, вам нужно будет определить текст, который вы хотите проанализировать, подготовить его для анализа и обучить ChatGPT вашим конкретным данным, прежде чем вы сможете использовать его для извлечения необходимых данных и структурирования их в табличной форме.

    Например, изначально у нас есть большой текст статьи или отчета по результатам какого-нибудь исследования. Весь текст нам не нужен. Возьмем только тот отрезок, который содержит данные. Для иллюстрации возьмем этот текст из одного исследования:

    Тем врененем, более 50% мирового населения (4,2 миллиарда человек) либо не имеют туалета дома, либо их туалет не оборудован для безопасной утилизации нечистот. В одной трети из школ по всему миру нет туалетов. 900 миллионов школьников не могут вымыть руки после туалета из-за нехватки надлежащих условий, что ведет к распространению болезней.
    2,5 миллиарда человек не имеют доступа к надлежащим средствам санитарии, в том числе туалетам или просто уборным с выгребной ямой, что имеет катастрофические последствия для человеческого здоровья, достоинства и безопасности, окружающей среды и социально-экономического развития.
    
    Устойчивые школы, устойчивое общество
    Ненадлежащая школьная инфраструктура, которая не в состоянии справиться с такими стихийными бедствиями, представляет значительную опасность для жизни и благополучия детей, причиняя значительные экономические потери для системы, а также серьезные нарушения и ущерб для сектора образования.
    Около 26% школ в городской местности и 50% школ в сельской местности не имеют доступа к чистой воде, подаваемой по трубам на территорию школьного комплекса или во двор.
    Аналогичная ситуация наблюдается и в отношении институциональной санитарии – в школах (Рисунок) и учреждениях здравоохранения. Согласно отчёту СПМ ВОЗ/ЮНИСЕФ, 2019, данные по медицинским учреждениям недостаточны.

    Чтобы ChatGPT смог правильно и эффективно проанализировать эти данные и вытащить из него все данные, нужно дать правильное задание. Недостаточно просто сказать “вытащи данные из этого текста”. Это не даст ChatGPT нужный контекст. Для эффективного анализа данных нужно определить роль, в которую должен “вжиться” ChatGPT. Поэтому первая часть нашего промпта (читай подсказки или задания ChatGPT) будет выглядеть вот так:

    Представь, что ты дата-майнер ...

    Далее определите его задачу:

    ... и ты должен спарсить этот текст и вытащить оттуда все данные, которые можно далее использовать для расчетов.

    И попросите ChatGPT выдать данные в такой форме, которая вам необходима. Мне нужна табличная форма:

    Структурируй данные в табличной форме:

    Далее введите текст и запустите анализ. Если не получится с первого раза, попробуйте уточнить свой запрос или сначала попробовать обучить ChatGPT на своих примерах. Если у вас уже есть таблица, которую вы сами создавали в результате анализа какого-нибудь текста, отправьте ChatGPT этот текст и таблицу, сказав, чтобы он обучился на этом примере. Потом уже можете отправить новый текст и попросить его вытащить оттуда данные.

    В итоге вы получите что-то вроде этого:

    Категория данныхЗначение
    Население без доступа к санитарии2.5 миллиарда человек
    Население без доступа к туалету или средствам утилизации нечистот4.2 миллиарда человек
    Школ без туалетов1/3 школ по всему миру
    Школ в городской местности без доступа к чистой воде26%
    Школ в сельской местности без доступа к чистой воде50%
    Школьников, которые не могут вымыть руки после туалета900 миллионов
    Школ без доступа к чистой водеДанные отсутствуют
    Медицинских учреждений с недостаточными даннымиДанные отсутствуют
    Результат парсинга данных из исходного текста, представленный в табличном формате.

    Как вы сами понимаете, сделать это можно и вручную, но автоматизация позволит вам сэкономить много времени, сил и нервов. Их вы потом сможете потратить на визуализацию. Как происходил процесс парсинга у меня, можете посмотреть на этом видео:

    Как вытащить данные из текста с помощью ChatGPT?

    Использование ChatGPT в журналистике данных для анализа текстов и структурирования данных в табличной форме требует некоторой предварительной работы, но результаты могут быть невероятно ценными. С помощью ChatGPT вы можете извлекать идеи и информацию из своих текстовых данных и представлять их в четком, организованном виде, который упрощает анализ и понимание.

    Rustam Gulov
    Rustam Gulovhttps://alifbo.media
    Независимый медиа-тренер и консультант, блоггер, сооснователь первой фактчек-платформы Таджикистана Factcheck.tj и блогплатфоры Blogiston.tj. Веду данный авторский проект Alifbo.Media - образовательный ресурс о новых медийных технологиях, трендах, онлайн-сервисах для подготовки мультимедийных материалов. В свободное время читаю, веду канал на Телеграм, создаю сайты, программирую.

    Свежие записи

    Это может быть интересно

    Leave a reply

    Please enter your comment!
    Please enter your name here