Cloudflare แฉ Perplexity ใช้ Bot ลับเพื่อขโมยข้อมูลเว็บไซต์ แม้เจ้าของเว็บ disallow ไว้แล้วใน robots.txt ไฟล์ ก็ยังนำข้อมูลไปแสดงได้ในหน้า AI Search
เรื่องนี้เริ่มจากที่ลูกค้าของ Cloudflare หลายรายร้องเรียนมาว่า แม้จะตั้งค่า robots.txt ห้าม Perplexity crawl แล้ว และยังสร้าง WAF rules บล็อก bot ของ Perplexity โดยเฉพาะ แต่ Perplexity ก็ยังสามารถเข้าถึงและดึงข้อมูลจากเว็บได้อยู่ดีครับ
ทีนี้ Cloudflare เลยทำการทดสอบด้วยการสร้างเว็บใหม่หลายเว็บที่ไม่มีใครรู้จัก ตั้ง robots.txt ห้าม crawl ทั้งหมด
User-agent: *
Disallow: /
แต่พอไปถาม Perplexity เกี่ยวกับเว็บเหล่านั้น... Perplexity ก็ยังตอบรายละเอียดเนื้อหาในเว็บได้อย่างแม่นยำเฉยเลย
Perplexity สามารถตอบคำถามเกี่ยวกับเว็บที่ Cloudflare ทดสอบ แม้ Cloudflare จะปิดกั้นผ่าน robots.txt แล้ว (Image source: Cloudflare)
วิธีการที่ Perplexity ใช้หลบเลี่ยงการบล็อก
จากการตรวจสอบพบว่า Perplexity ใช้เทคนิคแบบนี้ครับ
1. ใช้ Bot แอบแฝง
ตอนแรกจะใช้ User Agent ของตัวเองที่ประกาศไว้ นั่นก็คือ PerplexityBot
พอโดนบล็อก จะเปลี่ยนมาใช้ User Agent ปลอมเป็น Google Chrome บน Mac แทน
มีการ request ประมาณ 3-6 ล้าน requests ต่อวันจาก bot แอบแฝงนี้
2. เปลี่ยน IP และ ASN
ใช้ IP ที่ไม่ได้อยู่ในรายการที่ประกาศไว้อย่างเป็นทางการ
หมุนเวียนเปลี่ยน IP เมื่อโดนบล็อก
ยังเปลี่ยน ASN (เครือข่ายต้นทาง) เพื่อหลบการตรวจจับ
3. ไม่สนใจ robots.txt
บางครั้งไม่ตรวจสอบ robots.txt เลย
หรือตรวจสอบแล้วแต่ไม่ปฏิบัติตาม
เมื่อลองเปรียบเทียบกับ Bot ที่ทำถูกต้อง
Cloudflare ยกตัวอย่าง OpenAI (ChatGPT) ที่ทำได้ดีครับ
ประกาศ crawler ทุกตัวอย่างชัดเจน พร้อมอธิบายว่าแต่ละตัวทำอะไร
เคารพกฏ robots.txt อย่างเคร่งครัด
พอโดนบล็อก ก็หยุด ไม่พยายามหาทางอ้อมเพื่อ access เว็บไซต์
ใช้มาตรฐานใหม่ Web Bot Auth ในการยืนยันตัวตน
จากนั้น Cloudflare ทดสอบแบบเดียวกันกับ ChatGPT พบว่าพอเจอ robots.txt ห้าม หรือโดนบล็อก ChatGPT จะหยุดทันที ไม่มีการส่ง bot อื่นมาแทน
แล้ว Cloudflare จัดการปัญหานี้ยังไง?
ถอด Perplexity ออกจากรายการ Verified Bot
เพิ่ม rules ตรวจจับและบล็อก stealth crawler ของ Perplexity
ลูกค้าที่ใช้ bot management หรือตั้ง challenge rules อยู่แล้ว จะปลอดภัย
แม้แต่ลูกค้าฟรีก็สามารถใช้ managed rule บล็อก AI Crawlers ได้
ความเห็นจาก Hacker News ที่น่าสนใจ
มีการถกเถียงกันมากในประเด็นนี้ครับจากชาว tech จาก Hacker News
ฝ่ายที่เห็นด้วยกับ Perplexity
บางคนมองว่าการดึงข้อมูลตามคำขอของผู้ใช้ (on-demand) ต่างจากการ crawl แบบเก็บข้อมูลทั้งหมด
เปรียบเทียบว่าเหมือนการใช้ browser ที่มี extension หรือ ad-blocker
ถ้าเว็บเปิดให้เข้าได้โดยไม่ต้อง login ก็ควรเข้าถึงได้
ฝ่ายที่ไม่เห็นด้วย
เจ้าของเว็บควรมีสิทธิ์ควบคุมว่าใครเข้าถึงเนื้อหาได้บ้าง
AI companies ใช้ทรัพยากรของเว็บมหาศาล บางเว็บถึงขั้นล่มเพราะ AI crawler
การแอบแฝงตัวเองเพื่อหลบการบล็อกถือว่าไม่สุจริต
สรุป
เรื่องนี้สะท้อนปัญหาใหญ่ของยุค AI ครับ คือการใช้ข้อมูลของคนอื่นโดยไม่ได้รับอนุญาต
ในมุมของเจ้าของเว็บ เราลงทุนสร้างคอนเทนต์ ทำ SEO มาอย่างหนัก แต่ AI มา scrape ไปใช้ฟรี ๆ แถมยังแสดงคำตอบให้ user โดยที่ user ไม่ต้องเข้าเว็บเรา traffic หาย รายได้หด อ่านเพิ่มเติมในบทความ AI Search กำลังกลืนกินเว็บสาย informational...
หรือ Perplexity ควรทบทวนวิธีการทำงาน ถ้าอยากให้ธุรกิจยั่งยืน ต้องสร้างความไว้วางใจกับเจ้าของคอนเทนต์ ไม่ใช่ใช้บอทลับแบบนี้ (ตามที่ Cloudflare กล่าวอ้าง)
ดราม่านี้แสดงให้เห็นเลยครับว่าเรากำลังเข้าสู่ "สงครามเย็น" ระหว่างเจ้าของเว็บกับ AI Scrapers ฝั่งเจ้าของเว็บ (ในกรณีนี้คือเว็บที่มีเนื้อหา ดีมีคุณภาพนะครับ) ก็ต้องหาทางบล็อกที่ซับซ้อนขึ้น (ซึ่ง Cloudflare ก็กำลังทำอยู่) ส่วนฝั่ง AI ก็พยายามหาทางหลบเลี่ยงที่แนบเนียนขึ้น (ซึ่ง Perplexity ก็อาจกำลังทำอยู่ ตามที่ Cloudflare กล่าวอ้าง) สุดท้ายแล้วมันอาจจะนำไปสู่โลกอินเทอร์เน็ตที่ "เข้าถึงยากขึ้น" สำหรับทุกคน และเว็บดี ๆ ที่ให้ความรู้ฟรี ๆ อาจจะต้องตัดสินใจ "ติด Paywall" ไปในที่สุดครับ
ที่มา