Признаки ИИ-текста: как определить текст нейросети
Современные модели искусственного интеллекта можно использовать практически во всех сферах, включая создание контента разного типа. По данным сервиса “GigaCheck” от Сбера, около 6% статей на новостных ресурсах ежемесячно генерируются нейросетями. Что уж тогда говорить о коммерческих сайтах и блогах: “Нейростат” сообщает, что в 2024 году около 20% маркетологов используют ИИ для создания текстов: это экономит им до 3 часов работы на каждый материал. Экономия, конечно, дело хорошее, но не страдает ли при этом качество? Сегодня команда LZ.Media делится своими внутренними секретами и рассказывает, как раскрыла обман одного копирайтера и научилась распознавать тексты ChatGPT не хуже, чем специальные автоматизированные сервисы.
Зачем определять тексты, сгенерированные нейросетью
Глупо отрицать, что появление GPT перевернуло интернет с ног на голову. Нейросети сгенерировали не только терабайты контента, но и новую модель развития онлайна и нашего существования в нем. Большинство digital-агентств уже внедрило ИИ в свою работу и высказывается об этом опыте позитивно. Мы, пожалуй, не исключение: не так давно в нашем блоге выходила статья о том, как можно использовать GPT в рамках SEO-продвижения. Главный ее посыл, пожалуй, в том, что без понимания рабочих принципов нейросети и без собственного четкого целеполагания добиться эффективных результатов от ИИ нелегко.
К сожалению, нейросеть не всегда оказывается выгодной при работе с текстами. Мы уже рассказывали здесь и здесь, почему копирайтерские навыки оказываются полезнее при сравнении с GPT. Если коротко: составление индивидуальных промптов и фактологические проверки контента от ИИ иногда требуют больше усилий и навыков, чем создание текста руками человека с нуля. Особенно это важно в коммерческих и продающих текстах, где акцент делается на нюансах бизнеса, с которыми нейросеть не знакома.
Популярность ChatGPT, к сожалению, привела к появлению недобросовестных людей, выдающих сгенерированные (причем плохо сгенерированные) тексты за свои. Мы столкнулись с такой ситуацией лично, и, если бы не наша любовь к проверкам и нейросетям, ошибки было бы не избежать. Когда мы проводили конкурс на вакансию копирайтера, нам приходило много тестовых, среди которых были не только откровенно провальные или отличные. Были и просто — “нормальные”. Ну знаете, такие средние тексты, когда нет ошибок на первый взгляд, но и особых надежд на копирайтера не возлагаешь. Автора одного из таких текстов мы даже пригласили на собеседование. И быстро догадались, что “автором” его можно назвать лишь условно.
Как мы это поняли? Ну во-первых, в переписке человек расставлял знаки препинания совсем по-другому, нежели в сданном тексте. А во-вторых, он не смог толком рассказать, как работал над написанием и редактурой. В общем, столкнувшись с попыткой солгать и выдать машинный текст за авторский, мы решили посвятить больше времени анализу ошибок GPT и признакам сгенерированного текста.
Эти материалы были созданы GPT и немного обработаны нашими авторами. Сервис по проверке происхождения текстов от PR-CY не смог прийти к единому выводу в их отношении. Похоже, придется справляться своими силами.
Признаки сгенерированного нейросетью текста
Если ввести в “Яндекс” запрос “Как отличить текст, написанный нейросетью?”, поисковая система подскажет:
В этой подсказке скрыто два важных критерия, по которым GPT проигрывает человеку (по крайней мере, если вы не готовы работать очень долго ради одного текста). Первое — это логические связи между предложениями и скрытые смыслы, которые могут зародиться. Второе — это умение играть типами речи и миксовать разные стили.
Как определить нейросеть по знакам препинания
GPT плохо понимает нюансы пунктуации в русском языке. По большей части это касается не запятых, а двоеточий, точек с запятой, тире и т.д. Чаще проблемы связаны с вводными словами/конструкциями/предложениями, а также с пояснениями и уточнениями. Это и есть отражение контекста, который нейросеть не считывает.
Вот вам и более интересное наблюдение: ChatGPT чаще ставит запятые там, где предполагается эмоциональное или интонационное выделение текста. Это, конечно, парадоксально, ведь ни голоса, ни реакций психики у нейросети быть не может. Отсюда и ошибки.
Чуть конкретнее:
- Нейросеть не ставит двоеточия перед однородными членами (после обобщающего слова), а предпочитает конструкцию “такие как”.
- GPT регулярно размещает двоеточия в списках. А именно — после первого слова или словосочетания каждого пункта. В то же время нейросеть не поясняет фразу после двоеточий, а просто дублирует тот же смысл, еще и добавляя заглавную букву. Как будто это прямая речь со схемой А: “П”.
- Нейросеть ставит запятую после обстоятельственных оборотов, например, с предлогом “благодаря”, будто бы подразумевая интонационный акцент. Точно так же обособляет ChatGPT и “однако” в начале предложения, возможно, воспринимая союз как восклицательное междометие.
- Вы не увидите в тексте от GPT (по крайней мере, в первой итерации) скобки и многоточия. Ибо нейросеть не уточняет, не размышляет и не предполагает. Она просто знает, по умолчанию.
Правило 3“С”: содержание, стиль, смех
Мы, конечно, не гадаем на SEO по таро, но почему бы не побаловаться старой-доброй астрологией? Судя по времени запуска, ChatGPT по гороскопу огненный знак зодиака. Но при этом почему-то обожает воду. Да-да, введения и заключения к статьям больше похожи на попытку школьника увеличить объем в реферате, разве что в конце не добавляется: “Таким образом, как следует из вышенаписанного, можно с уверенностью сделать вывод, что…”. Но и без этого нейросеть, если не использовать промпты, любит неинтересные заходы и банальные итоги на уровне начинающего копирайтера с биржи.
Поскольку человеческой памятью ChatGPT не обладает, надеяться, что ваш текст с первого раза не будет иметь повторов, не стоит. Если просить нейросеть сделать в одном материале несколько списков — например, один с перечнем каких-либо проблем, а в второй с вариантами их решения — то в первом списке GPT, что называется, заспойлерит, а в другом задублирует уже написанное, почти слово в слово.
Нейросеть постоянно повторяет саму себя, но при этом не может оформить это как отсылку к своим словам. Вы не встретите обороты в духе “как уже было сказано”, “повторимся”, “вернусь к…”. Получается, связи между мыслями в тексте есть, а вот связей между частями теста — немного.
Нейросеть по умолчанию (т.е. опять же, без индивидуальных промптов) не умеет в сторителлинг, метафорику, постмодернизм и прочие штуки, которые можно добавлять в информационные, а не только в художественные тексты. Ну хотя бы для разнообразия заголовков. Само собой, вы можете отдельно попросить ChatGPT сгенерировать, например, какую-то историю, которая может стать примером в статье. Но желательно чуть ли не самому продумать ее сюжет. А если так, то зачем тратить время на общение с нейросетью?
Кстати, о примерах. Качественных примеров в какой-либо теме можно добиться от ChatGPT далеко не с первого раза. Нет, они не то чтобы совсем не релевантные. Чаще они либо устаревшие (заезженные), либо очень обширные (абстрактные), либо сгенерированы с учетом западных культуры и опыта. Нейросеть не будет придумывать параллели и сравнения из других тем, например, чтобы объяснить механизм работы какого-нибудь оборудования.
Мы пошли дальше и сделали текст более патриотичным — попросили использовать отечественные мемы. ChatGPT добавил фразы: “получилось, но не очень”, “без обид, я просто дурачок” и “не знаю, как вы там, а я вот…”. Понятия не имеем, о чем речь во всех трех случаях, но посыл ясен.
Нейросеть часто употребляет слова в неверных значениях. Если она не понимает смысл запроса, то напишет текст просто по общей тематике или схожий по звучанию. Например, вместо шпаргалки по теме “основание науки” вы получите тезисы про основы науки. При этом она обожает отглагольные существительные, видимо, подразумевая, что за просьбой “напиши статью” всегда скрывается желание сделать материал в научный журнал, а не в блог на сайте. ChatGPT может выдать что-то в духе: “Уточните свои маркетинговые усилия, чтобы привлекать правильных посетителей”.
Также нейросеть не умеет шутить. Она может написать текст в юмористическом ключе, если попросить отдельно, может добавить мемы при уточнении запроса, но она не воспринимает тот самый пресловутый контекст, а значит, ей не дано включать в текст ситуативные шутки.
Определяем ИИ-текст на примерах в рамках рекурсивного эксперимента
Мы попросили GPT-4 написать текст про писательскую борьбу людей и машин с конкретными примерами. То есть нейросеть не только сгенерировала кусочек, который характеризует ее работу, но и попыталась отдельно создать отрывки в стиле человека. Вот, что получилось из этой рекурсии:
1. Синтаксическая точность и структура текста:
Нейросети, особенно в более ранних моделях, могут проявлять определенные характеристики, которые отличают их от текстов, созданных людьми. Одним из таких признаков является синтаксическая точность и структура текста. Нейросети могут создавать предложения, которые выглядят формально правильными, но при ближайшем рассмотрении они могут оказаться неестественными или несвязными. Сравним следующие два отрывка на тему “Искусственный интеллект”:
Отрывок, созданный нейросетью:
“Искусственный интеллект – это область, которая исследует создание и развитие компьютерных систем, способных симулировать интеллект и поведение, похожее на человеческое. Он включает в себя различные подходы, такие как машинное обучение и глубокое обучение.”
Отрывок, написанный человеком:
“Искусственный интеллект – это наука, изучающая создание и развитие компьютерных систем, способных моделировать интеллектуальные процессы, сходные с человеческими. В ее основе лежат методы машинного обучения, нейронных сетей и других алгоритмов.”
В данном примере, текст, созданный нейросетью, содержит более простые и поверхностные формулировки, а также несколько несвязанных предложений.
Примечательно, что нейросеть “уверена” в своей синтаксической точности. И это с точками до кавычек и с запятой после “в данном примере”. Если говорить честно, оба примера выглядят поверхностными. Но в “человеческом” варианте есть плюсы: пропали “включает в себя” и “такие как”. А вот три распространенных определения (“изучающая”, “способных”, “сходные”) в одном предложении, это, конечно, перебор.
Со второй частью текста всё проще:
2. Уникальность и креативность:
Одним из сложных заданий для нейросетей является создание уникальных и креативных текстов. Нейросети могут воспроизводить информацию, которую они усвоили во время обучения, но они часто ограничены в создании новых и оригинальных идей. Реальные люди обычно проявляют большую креативность в своих высказываниях и текстах. Рассмотрим примеры на тему “Роль искусственного интеллекта в медицине”:
Отрывок, созданный нейросетью:
“Искусственный интеллект играет важную роль в медицине. Он помогает в диагностике различных заболеваний и разработке лечебных режимов. Многие исследования показывают, что использование искусственного интеллекта может существенно улучшить качество здравоохранения.”
Отрывок, написанный человеком:
“Искусственный интеллект играет неоспоримую роль в современной медицине. Его применение включает широкий спектр задач, от автоматизации анализа медицинских изображений до прогнозирования распространения эпидемий. Искусственный интеллект стимулирует инновации и способствует более точной и персонализированной медицинской помощи.”
В этом примере, текст, написанный нейросетью, описывает общие понятия, не предлагая конкретных примеров или деталей. В то же время, отрывок, созданный реальным человеком, содержит более широкий спектр информации и более конкретные примеры.
Тут, конечно, с нейросетью не поспоришь: прогнозирование эпидемий — пример конкретнее, чем диагностика заболеваний. Впрочем, добавь GPT подробностей про “многие исследования”, стало бы полезнее, чем во втором случае, где не уточняется, какие медицинские изображения и когда надо анализировать.
Как определить сгенерированный текст: итоговый чек-лист
- Оцените знаки препинания. Да, человек будет чаще ошибаться, например, в запятых сложноподчиненных предложений, но он может добавить тексту разнообразия за счет тире, точек с запятой, многоточий, скобок. Возможно, они будут не к месту, но точно будут. А вот если в тексте только запятые и двоеточия после заголовков и подзаголовков — это повод насторожиться.
- Посмотрите процент воды в тексте. Вводные предложения как ложки: дороги к обеду, т.е. к месту. Если видите, что заключение и введение неинформативны и не цепляют пользователя — текст может быть нейросетевым. Впрочем, этим же грешат и многие копирайтеры.
- Проанализируйте tone of voice. Копирайтеры могут писать по-разному и даже часто ошибаться в выбранном стиле общения с аудиторией. Но они, скорее всего, будут хотя бы пытаться экспериментировать и креативить. Тексты от нейросетей в первых итерациях написаны сухим языком без юмора, риторических обращений и вообще каких-либо попыток зацепить читателя. Зато в них нередко можно встретить переусложненные или стилистически неверные словосочетания.
- Проследите развитие мысли в тексте. Нейросеть, как очень пожилой человек: через каждые пять минут может говорить одно и то же. При этом извиняться перед аудиторией или объяснять, почему так происходит, она, разумеется, в тексте не станет. Как и “разжевывать” тему через какое-нибудь интересное сравнение.
Само собой, мы не утверждаем, что наличие или отсутствие перечисленных выше проблем поможет вам на 100% определить, сгенерирован ли текст нейросетью. Но предупрежден — значит вооружен. В конце концов, вы ничего не теряете, когда спрашиваете у копирайтера “А ты пользуешься ChatGPT?”, чтобы понаблюдать за его реакцией.
Остались вопросы?
Оставьте заявку, чтобы получить консультацию