• Home
  • Blog
  • เข้าใจ robots.txt พร้อมวิธีการใช้งานที่ถูกต้อง

เข้าใจ robots.txt พร้อมวิธีการใช้งานที่ถูกต้อง

Son Content Mastery
Updated: Aug. 6, 2023


robots.txt คือ ไฟล์ที่ใช้บอก Search Engine เช่น Google, Bing, Yandex, etc  เกี่ยวกับเนื้อหาที่ควรและไม่ควรให้ Bots เหล่านี้มาเก็บเกี่ยวหน้าเว็บเพจในเว็บไซต์ของเราไปทำการ index

ซึ่งไฟล์นี้มักถูกตั้งค่าและอัปโหลดไว้ที่ root ของเว็บไซต์ เช่น example.com/robots.txt ประมาณนี้ครับ เพื่อให้เสิร์ชเอนจินทราบว่าควรตามลิงก์ในหน้าเว็บไซต์อย่างไร หน้าไหนควรให้บอตไปเก็บข้อมูล หน้าไหนไม่ควร หากเว็บไซต์ของเราไม่มีไฟล์ robots.txt หรือไม่ได้ตั้งค่าให้ถูกต้องนั้น ก็อาจจะส่งผลเสียมากกว่าผลดีได้เลย ดังนั้นจึงต้องระมัดระวังในขั้นตอนนี้พอสมควร แนะนำว่าควรมีสกิลด้าน technical ในระดับหนึ่งครับ



การสร้างไฟล์ robots.txt

ไฟล์ robots.txt เป็นไฟล์ข้อความประเภทเอกสาร (text file) ซึ่งสามารถสร้างและแก้ไขด้วยเครื่องมือสร้างข้อความ (text editor) เช่น Notepad หรือ Visual Studio Code โดยให้ตั้งชื่อไฟล์เป็น "robots.txt" และนำไปอัปโหลดไว้ที่ root ของเว็บไซต์ของเรา โครงสร้างของไฟล์ robots.txt ประกอบด้วยส่วนต่างๆ ดังนี้

User-agent

user-agent คือ ชื่อของเครื่องมือค้นหาหรือบอตที่จะนำข้อมูลไปดำเนินการต่อไปได้ หากต้องการกำหนดกฎเฉพาะสำหรับบอตนั้น ๆ สามารถระบุ User-agent ของบอตนั้นได้ เช่น Googlebot (สำหรับ Google), Bingbot (สำหรับ Bing) หรือ * (wildcard) สำหรับทุก Search Engines


Disallow

disallow คือ เส้นทาง (route) ของ URL ที่ไม่ควรให้เสิร์ชเอนจินค้นหาเข้าถึงหน้าใด ๆ บนเว็บไซต์ โดยให้ระบุ route ของ URL นั้นในส่วน Disallow เช่น Disallow: /admin/ จะหมายถึงไม่ควรให้ค้นหาหน้าใน  /admin/


Allow

allow คือ เส้นทาง (route) ของ URL ที่ต้องการอนุญาตให้เสิร์ชเอนจินทำการค้นหาหน้าใด ๆ ที่อยู่ใน route ที่ต้อง Disallow เช่น Allow: /images/ จะหมายถึงให้ค้นหาหน้าใน  /images/ (คือให้ไปค้นหาในหน้านี้ได้นั่นเอง)


Sitemap

คือ URL ของแผนผังของเว็บไซต์ ซึ่งเป็นไฟล์ที่เก็บรวบรวมลิงก์ทั้งหมดของเว็บเพื่อช่วยในการค้นหาลิงก์ในเว็บไซต์ของเราได้สะดวกมากยิ่งขึ้น คือถ้าอยากให้ Googlebot มาเก็บเกี่ยวลิงก์เพื่อไป index อยู่เป็นประจำให้สร้างไฟล์ sitemap.xml เพื่อทำ sitemap ครับ


ตัวอย่างไฟล์ Robots.txt

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /images/
Sitemap: https://www.example.com/sitemap.xml


สำหรับผู้ที่ต้องการความปลอดภัยของเว็บไซต์และไม่ต้องการให้ข้อมูลหรือหน้าเว็บเพจที่มีความลับไปเปิดเผยต่อสายตาประชาชี ก็ควรตั้งค่าไฟล์ robots.txt อย่างระมัดระวัง และควรตรวจสอบให้แน่ใจว่าเครื่องมือค้นหาสามารถเข้าถึงเนื้อหาที่ควรค้นหาและเนื้อหาที่ไม่ควรเข้าถึงได้อย่างถูกต้องนะครับ

Son Content Mastery
Son Content Mastery

ที่ปรึกษาด้าน Web & SEO สำหรับองค์กรและเจ้าของธุรกิจ ชอบการเขียนและแชร์ความรู้ มีความเชื่อว่าความรู้คือสินทรัพย์ที่มีมูลค่ามากที่สุด ให้อะไรก็คงไม่เท่าให้ความรู้ หลงไหลในการเดินทางท่องเที่ยวเป็นชีวิตจิตใจ เป็นพ่อของแงว ๆ อยู่หลายตัว เสพติดกาแฟเข้าเส้น เมนูประจำคืออเมริกาโน่


อัพสกิล SEO ด่วน?

ลดระยะเวลาลองผิดลองถูกด้วยตัวเอง เรียน SEO พร้อมหลักการทำงานของเว็บ เข้าใจเบื้องลึกเบื้องหลังการทำงานของเว็บ พร้อมทั้งสามารถเข้าใจส่วนยาก ๆ อื่น ๆ เช่น Technical SEO ได้แบบไม่มีปัญหา คลาสออนไลน์แบบ private กับ Son contentmastery.io (หรืออบรมในองค์กรแบบ in-house ทางผมก็รับครับ) สามารถติดต่อ พูดคุย สอบถามหรือปรึกษากันก่อนได้ครับ