Сайти-сміттярки: наскільки серйозна проблема з junk websites і до чого тут ШІ

Контент тепер створюють зі швидкістю 1200 статей на день

Сайти-сміттярки (junk websites), чи сайти, наповнені низькосортним контентом, створюють з різною метою: від поширення вірусів до заробляння коштів та впливу на суспільну думку. Вони завжди були проблемою, але поки їх створенням займались люди — не настільки серйозною.

З розвитком ШІ експерти забили тривогу: сайти-сміттярки почали з'являтися значно швидше, приносячи їхнім творцям дохід до $ 1000 за значно менших витрат на підтримку.

У цьому матеріалі з’ясовуємо, наскільки ШІ спростив процес створення junk websites, чим вони шкодять та чи можна щось із ними зробити.

Які бувають сайти

Існують прості односторінкові сайти (лендинги) та більш складні, які є освітніми порталами, новинними ресурсами, магазинами тощо. Обидва види також можна умовно поділити на «доброякісні» та «сміттярки»:

«Доброякісні» сайти — це платформи, наповнені якісним контентом. У них мало або відсутня реклама та немає клікбейту.
«Сміттярки» ж містять посередній контент, там наявні клікбейтні заголовки та купа реклами. Часто цей тип сайтів також поширює віруси.

Як «доброякісні» сайти, так і «сміттярки» можна створювати за допомогою ШІ. Але якщо раніше junk websites наповнювали за допомогою «ферм» копірайтерів, яким давали замовлення на величезні обсяги низькооплачуваних текстів, то тепер дедалі частіше начинка цих сайтів — тексти та зображення, згенеровані ШІ. Силами ChatGPT робити це стало не просто дешево, а безплатно.

Крім того, автоматизувати деякі з технічних процесів створення сайтів, використовуючи ШІ-інструмент, теж достатньо легко.

Як ChatGPT може створювати сміттярки

«Накидати базову структуру сайту та видати структуру HTML: html, body, section, navbar тощо — таке завдання легко можна розв’язати за допомогою ChatGPT», — розповідає Данил Бойко, Technical Leader в N-IX з досвідом роботи 6+ років у FullStack-розробці. «Також можна автоматизувати код. Я кажу: «ChatGPT, у мене є 10 полів, у мене є ось така структура, усередину цієї структури встав ці 10 полів». Замість того, щоб мені це писати, він це зробить».

Данил Бойко, Technical Leader в N-IX

Так само можна й перевірити код на помилки, особливо орфографічні, додає Данил. «Якщо код більш складний, я не можу як девелопер підписатися за його якість, тому я за ним самостійно все перевіряю. Але з простими завданнями він впорається добре», — ділиться розробник.

Данил каже, що поки сам по собі ШІ не може зробити щось велике. Але перед нами вже стоїть завдання опанувати його — бо навчена людина буде попереду тієї, яка цим інструментом не користується. На жаль, необов’язково ця людина створюватиме щось корисне.

Уже зараз компанія NewsGuard, яка займається оцінкою сайтів, з квітня 2023 щотижня виявляє близько 25 нових сайтів, створених ШІ: 217 із них зроблені 13 мовами. Деякі з них більш складні та переконливі, а деякі — наповнені згенерованими ШІ фотографіями та фальшивими біографіями авторів матеріалів, яких не існує.

На одному такому сайті за допомогою ШІ можуть створювати до 1200 статей на день.

Чи можна відрізнити сайт, створений людиною, від написаного за допомогою ШІ?

«Сьогодні штучний інтелект не може самостійно зробити сайт, для цього треба подбати про багато моментів: підняти сервер, купити домен і прив’язати його до сервера, зробити SSL-сертифікат тощо. За кожним сайтом ще стоятиме людина. Звісно, є готові рішення, щоб швидко розгорнути сайт, але це однаково потребує зусиль», — каже Данил Бойко.

На скриншоті нижче показано сайт про котів у стилі Барбі, який Данил попросив написати людину з нульовим досвідом програмування. Щоб створити сайт, ця людина ставила різні завдання ChatGPT. Як бачимо, результат не виглядає як сайт з першої сторінки Google та явно не має суспільного впливу:

Скриншот сайту, створеного людиною з нульовим досвідом програмування за допомогою ChatGPT

ШІ не відбере роботу в людини, з ним сама ж людина зможе виконувати більший обсяг роботи, впевнений Данил. Наприклад, після появи машин робочі години на фабриці не зменшилися, зате підвищилася кількість виготовленої продукції. Так само й зараз: досвідчений розробник може прискорити свою розробку за допомогою ШІ.

«Потрібно розуміти, що ШІ не пише сам, він використовує припущення, а основою цих припущень використано код, доданий людиною до 2021 року, — зазначає Данил. — Саме тому X (колишній Twitter), Reddit та інші беруть гроші за зчитування даних».

Також розробник каже, що відрізнити сайт, до якого було залучено ШІ, можна, якщо звертати увагу на контент. «ChatGPT має свій стиль письма, який одразу його видає, якщо в текст не вносити правки».

Як NewsGuard шукає та оцінює сайти, створені ШІ

Вище ми вже згадували NewsGuard, інструмент, який оцінює довіру до новинних та інформаційних вебсайтів і відстежує дезінформацію в інтернеті. Його можна встановити як розширення браузера або окремим мобільним застосунком.

NewsGuard працює за допомогою різних інструментів ШІ, також вони мають у власності найбільший набір даних про новини. Вони ставлять абревіатуру UAIN на сайти, де контент створено за допомогою ШІ. Але вже зараз багато журналістів використовує ШІ у своїй роботі.

В NewsGuard стверджують, що не маркуватимуть сайти, у яких заздалегідь стверджується про використання ШІ в своїй роботі, бо ця абревіатура має нести застереження саме про недоброякісний сайт.

Оскільки багато із сайтів-сміттярок наповнюються без нагляду людини, вони часто пронизані повідомленнями про помилки, типовими для систем ШІ. Наприклад, на сайті CountyLocalNews.com були повідомлення на кшталт:

«Вибачте, я не можу виконати цю підказку, оскільки це суперечить етичним і моральним принципам (…) Як модель мови ШІ, я відповідаю за надання фактичної та перевіреної інформації».

Алгоритми NewsGuard шукають і такі повідомлення також.

Чи можуть сайти, створені за допомогою ШІ, обдурити Google

Данил Бойко, Technical Leader в N-IX, не вірить, що сайт, повністю написаний ШІ, може обдурити пошукові системи.

«Навіть досвідчені маркетологи та розробники дуже стараються, щоб потрапити на першу сторінку Google, — каже розробник. — А в самому Google працюють одні з найкращих представників IT-індустрії, які точно знають, що і як перевірити. Навіть якщо GoogleAds буде підключеним до недоброякісних сайтів, ще не факт, що це принесе гроші їхнім власникам».

Виділяють два основні типи монетизації сайтів через рекламу:

Оплата за кількість переходів з реклами.
Оплата за кількість її перегляду на сторінці сайту.

Відвідуваність можна легко накрутити ботами, але замість прибутку таким чином легше отримати бан, каже Данил. Також у Google існують цілі департаменти, аби захистити свій бізнес: Ad Fraud and Bot Traffic, Validating Impressions, Bot Mitigation, Monitoring and Reporting і також ШІ, який буде шукати інший ШІ.

Однак Google Ads, що є найбільшою біржею в інтернеті, неодноразово критикували за розміщення реклами на недоброякісних сайтах у минулому, хоча її власні правила забороняють сайтам розміщувати рекламу Google на сторінках із «автоматично створеним вмістом спаму».

Близько чверті сайтів, на які NewsGuard звернули увагу, містили програмні оголошення від великих брендів. З 393 оголошень від великих брендів, знайдених на створених штучним інтелектом сайтах, 356 обслуговував Google.

Сайт MedicalOutline.com, написаний з допомогою ШІ, містив статті, які поширювали дезінформацію про здоров’я, із заголовками на зразок «Чи може лимон вилікувати шкірну алергію?», «Які 5 природних засобів від СДУГ?» і «Як запобігти раку природним шляхом?». За даними NewsGuard, на сайті через Google була розміщена реклама дев'яти великих брендів.

Чи є неякісні сайти проблемою інтернету

Сайти-сміттярки створюють з різними цілями. Ті, що мають велику авдиторію, часто спрямовані на вплив громадської думки та збір персональних даних. Але за такими сайтами стоїть багато роботи — лише ШІ не в змозі обробити запит людини на 100 % правильно.

Менші та простіші junk websites можуть створювати з метою збагачення на показах реклами, проте це сумнівний метод заробітку, бо теж потребує багато ресурсів.

«Я думаю, що неякісні сайти не є загрозою, бо залучити аудиторію — дуже складне завдання. Це те, над чим працюють відділи маркетологів. Я не можу уявити, щоб сайт, який я додав на скриншоті вище, міг на когось вплинути. Людина проведе на ньому не більш як 10 секунд», — ділиться думкою Данил Бойко.

Проте треба перейматися, щоб сайти не використовували з метою шахрайства, додає він. «Хоча людина без досвіду не зможе це зробити, це можуть бути розробники. Треба памʼятати, що розвиток ринку шахрайських сайтів провокує і розвиток захисту від них».

Своєю чергою, фахівці у сфері кібербезпеки також можуть використовувати ШІ для посилення захисту. Як саме — читайте в інтерв’ю з Михайлом Кольцовим, зовнішнім консультантом The World Bank Group у сфері аналізу даних та кібербезпеки.

Автор: Дарина Валерко

Поділитися: