МастерскаяИнструкцииКак вытащить данные из текста с помощью ChatGPT?

Как вытащить данные из текста с помощью ChatGPT?

Использование ChatGPT в журналистике данных требует некоторой подготовки и обучения, хотя в целом всё не так сложно. Прежде всего, вам нужно будет определить текст, который вы хотите проанализировать, подготовить его для анализа и обучить ChatGPT вашим конкретным данным, прежде чем вы сможете использовать его для извлечения необходимых данных и структурирования их в табличной форме.

Например, изначально у нас есть большой текст статьи или отчета по результатам какого-нибудь исследования. Весь текст нам не нужен. Возьмем только тот отрезок, который содержит данные. Для иллюстрации возьмем этот текст из одного исследования:

Тем врененем, более 50% мирового населения (4,2 миллиарда человек) либо не имеют туалета дома, либо их туалет не оборудован для безопасной утилизации нечистот. В одной трети из школ по всему миру нет туалетов. 900 миллионов школьников не могут вымыть руки после туалета из-за нехватки надлежащих условий, что ведет к распространению болезней.
2,5 миллиарда человек не имеют доступа к надлежащим средствам санитарии, в том числе туалетам или просто уборным с выгребной ямой, что имеет катастрофические последствия для человеческого здоровья, достоинства и безопасности, окружающей среды и социально-экономического развития.

Устойчивые школы, устойчивое общество
Ненадлежащая школьная инфраструктура, которая не в состоянии справиться с такими стихийными бедствиями, представляет значительную опасность для жизни и благополучия детей, причиняя значительные экономические потери для системы, а также серьезные нарушения и ущерб для сектора образования.
Около 26% школ в городской местности и 50% школ в сельской местности не имеют доступа к чистой воде, подаваемой по трубам на территорию школьного комплекса или во двор.
Аналогичная ситуация наблюдается и в отношении институциональной санитарии – в школах (Рисунок) и учреждениях здравоохранения. Согласно отчёту СПМ ВОЗ/ЮНИСЕФ, 2019, данные по медицинским учреждениям недостаточны.

Чтобы ChatGPT смог правильно и эффективно проанализировать эти данные и вытащить из него все данные, нужно дать правильное задание. Недостаточно просто сказать “вытащи данные из этого текста”. Это не даст ChatGPT нужный контекст. Для эффективного анализа данных нужно определить роль, в которую должен “вжиться” ChatGPT. Поэтому первая часть нашего промпта (читай подсказки или задания ChatGPT) будет выглядеть вот так:

Представь, что ты дата-майнер ...

Далее определите его задачу:

... и ты должен спарсить этот текст и вытащить оттуда все данные, которые можно далее использовать для расчетов.

И попросите ChatGPT выдать данные в такой форме, которая вам необходима. Мне нужна табличная форма:

Структурируй данные в табличной форме:

Далее введите текст и запустите анализ. Если не получится с первого раза, попробуйте уточнить свой запрос или сначала попробовать обучить ChatGPT на своих примерах. Если у вас уже есть таблица, которую вы сами создавали в результате анализа какого-нибудь текста, отправьте ChatGPT этот текст и таблицу, сказав, чтобы он обучился на этом примере. Потом уже можете отправить новый текст и попросить его вытащить оттуда данные.

В итоге вы получите что-то вроде этого:

Категория данныхЗначение
Население без доступа к санитарии2.5 миллиарда человек
Население без доступа к туалету или средствам утилизации нечистот4.2 миллиарда человек
Школ без туалетов1/3 школ по всему миру
Школ в городской местности без доступа к чистой воде26%
Школ в сельской местности без доступа к чистой воде50%
Школьников, которые не могут вымыть руки после туалета900 миллионов
Школ без доступа к чистой водеДанные отсутствуют
Медицинских учреждений с недостаточными даннымиДанные отсутствуют
Результат парсинга данных из исходного текста, представленный в табличном формате.

Как вы сами понимаете, сделать это можно и вручную, но автоматизация позволит вам сэкономить много времени, сил и нервов. Их вы потом сможете потратить на визуализацию. Как происходил процесс парсинга у меня, можете посмотреть на этом видео:

Как вытащить данные из текста с помощью ChatGPT?

Использование ChatGPT в журналистике данных для анализа текстов и структурирования данных в табличной форме требует некоторой предварительной работы, но результаты могут быть невероятно ценными. С помощью ChatGPT вы можете извлекать идеи и информацию из своих текстовых данных и представлять их в четком, организованном виде, который упрощает анализ и понимание.

Rustam Gulov
Rustam Gulovhttps://alifbo.media
Независимый медиа-тренер и консультант, блоггер, сооснователь первой фактчек-платформы Таджикистана Factcheck.tj и блогплатфоры Blogiston.tj. Веду данный авторский проект Alifbo.Media - образовательный ресурс о новых медийных технологиях, трендах, онлайн-сервисах для подготовки мультимедийных материалов. В свободное время читаю, веду канал на Телеграм, создаю сайты, программирую.

Вас могут заинтересовать и эти материалы

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь