Tổng quan về Sơ đồ trang web sitemap hướng dẫn cách tạo online

Sitemap (Sơ đồ trang web) là một tệp tin (thường là XML, nhưng cũng có thể là HTML, RSS, Text) chứa danh sách và thông tin về các trang, hình ảnh, video và các tệp tin khác trên website của bạn. Nó hoạt động như một tấm bản đồ, giúp các công cụ tìm kiếm như Google, Bing, Yahoo... khám phá, thu thập dữ liệu (crawl) và lập chỉ mục (index) tất cả nội dung quan trọng trên site một cách hiệu quả.

Tổng quan về Sơ đồ trang web sitemap hướng dẫn cách tạo online

Về cơ bản, có hai loại sitemap chính:

  1. HTML Sitemap: Dành cho người dùng.

  2. XML Sitemap: Dành cho công cụ tìm kiếm.

1. HTML Sitemap (Dành cho người dùng)

  • Mục đích: Là một trang thực tế trên website (thường có đường dẫn là /sitemap.html), cung cấp cho người dùng cái nhìn tổng quan về cấu trúc site và giúp họ dễ dàng điều hướng đến bất kỳ trang nào họ cần.

  • Đối tượng: Người dùng cuối (khách truy cập).

  • Lợi ích: Cải thiện trải nghiệm người dùng (UX), đặc biệt hữu ích cho những người gặp khó khăn trong việc tìm kiếm thông tin trên menu chính.

2. XML Sitemap (Dành cho công cụ tìm kiếm)

Đây là loại sitemap quan trọng nhất cho SEO.

  • Mục đích: Giao tiếp trực tiếp với bot của công cụ tìm kiếm, thông báo cho chúng biết những trang nào tồn tại trên website, thời điểm chúng được cập nhật lần cuối, mức độ quan trọng tương đối và mối quan hệ giữa các trang.

  • Đối tượng: Bot của Google, Bing, v.v.

Sơ đồ trang web XML nói ngắn gọn

Sơ đồ trang web XML là một tài liệu đặc biệt liệt kê tất cả các trang trên một trang web để cung cấp cho công cụ tìm kiếm cái nhìn tổng quan về tất cả nội dung có sẵn.

Rất khuyến khích triển khai Sơ đồ trang web XML, đặc biệt là trên các trang web lớn (trên 500 trang).

Tuân thủ các biện pháp tốt nhất sau đây khi triển khai Sơ đồ trang web XML:

  • Cập nhật sơ đồ trang web XML theo nội dung của trang web.
  • Đảm bảo nội dung sạch sẽ: chỉ nên đưa vào những trang có thể lập chỉ mục.
  • Tham chiếu Sơ đồ trang web XML từ tệp robots.txt của bạn.
  • Không liệt kê quá 50.000 URL trong một Sơ đồ trang web XML.
  • Đảm bảo kích thước tệp (chưa nén) không vượt quá 50MB.
  • Đừng quá ám ảnh về các thuộc tính lastmod, priority và changefreq.

Sơ đồ trang web XML trông như thế nào?

Sơ đồ trang web XML dành cho các công cụ tìm kiếm, do đó chúng được định dạng bằng một ngôn ngữ dễ hiểu cho máy tính: XML. May mắn thay, XML cũng khá dễ đọc đối với con người, vì vậy hãy cùng xem một ví dụ:

Sitemap trông như thế nào

Bây giờ, để hiểu chuyện gì đang xảy ra, chúng ta hãy phân tích từng phần riêng lẻ!

Tiêu đề XML

Tiêu đề này cho biết nội dung được cấu trúc theo phiên bản 1.0 của chuẩn XML và mô tả mã hóa ký tự. Về cơ bản, nó thông báo cho các công cụ tìm kiếm những gì họ có thể mong đợi từ tệp.

Định nghĩa của bộ URL

Định nghĩa urlset này bao gồm tất cả các URL có trong sơ đồ trang web và mô tả phiên bản nào của chuẩn Sơ đồ trang web XML được sử dụng. Lưu ý rằng urlset được đóng ở cuối tài liệu:

Định nghĩa của từng URL

Định nghĩa của từng URL

Cuối cùng, chúng ta đến phần quan trọng nhất: định nghĩa các URL riêng lẻ thông qua urlthẻ -. Mỗi định nghĩa URL cần chứa ít nhất locthẻ - (viết tắt của location ). Giá trị của thẻ này phải là URL đầy đủ của trang, bao gồm cả giao thức (ví dụ: "http://" ).

Ngoài ra, mỗi định nghĩa URL có thể chứa các thuộc tính tùy chọn sau:

  • lastmod: ngày nội dung trên URL đó được sửa đổi lần cuối. Ngày được định dạng theo chuẩn " W3C datetime" định dạng.
  • priority: mức độ ưu tiên của URL so với trang web của bạn trên thang điểm từ 0,0 đến 1,0.
  • changefreq: tần suất dự kiến ​​nội dung trên URL sẽ thay đổi. Các giá trị có thể là luôn luôn, hàng giờ, hàng ngày, hàng tuần, hàng tháng, hàng năm và không bao giờ.

Sơ đồ trang web XML là gì?

Sơ đồ trang web XML là một tài liệu đặc biệt liệt kê tất cả các trang trên một trang web và dành cho các công cụ tìm kiếm. So sánh nó với danh bạ điện thoại: nó cho công cụ tìm kiếm biết nội dung nào có sẵn và cách truy cập nội dung đó. Ngoài ra, một số thông tin bổ sung có thể được cung cấp, chẳng hạn như thời điểm nội dung được cập nhật lần cuối và mức độ quan trọng tương đối của nội dung.

Sơ đồ trang web XML rất hữu ích cho các công cụ tìm kiếm vì nó cung cấp cho chúng cái nhìn tổng quan duy nhất về tất cả nội dung có sẵn cùng một lúc. Điều này vừa là điểm khởi đầu cho lần đầu tiên họ truy cập trang web của bạn, vừa là cách để nhanh chóng khám phá nội dung mới được thêm vào.

Điều quan trọng cần lưu ý là sự khác biệt giữa sơ đồ trang web XML và sơ đồ trang web "thông thường" (còn gọi là "sơ đồ trang web HTML"). Những sơ đồ trang web này dành cho khách truy cập tìm nội dung trên trang web của bạn, trong khi sơ đồ trang web XML dành cho các công cụ tìm kiếm .

Tại sao bạn nên quan tâm đến XML Sitemap?

Sơ đồ trang web XML giúp các công cụ tìm kiếm đánh giá nội dung trang web của bạn và là một cơ chế thông báo cho các công cụ tìm kiếm về nội dung mới hoặc nội dung được cập nhật. Do đó, bạn nên triển khai chúng bất cứ khi nào có thể. Đặc biệt đối với các trang web lớn (trên 500 trang), chúng thực sự trở thành một phần không thể thiếu.

Chỉ mục Sơ đồ trang web XML là gì?

Bất cứ khi nào bạn vượt quá giới hạn của một Sơ đồ trang web XML duy nhất, bạn cần chia chúng thành các Sơ đồ trang web XML riêng biệt và đóng gói chúng lại với nhau bằng một Chỉ mục Sơ đồ trang web XML. Chỉ mục này là một tệp XML riêng biệt tham chiếu đến các Sơ đồ trang web XML khác nhau.

Chúng ta hãy xem một ví dụ:

Chỉ  mục Sơ đồ trang web XML là gì?

Chỉ mục Sơ đồ trang web XML này tham chiếu đến hai Sơ đồ trang web XML: sitemap1.xml.gzvà sitemap2.xml.gz. Chúng ta hãy cùng phân tích tệp này nhé!

Tiêu đề XML

Không có gì mới ở đây, giống như với tệp Sơ đồ trang web XML, trước tiên chúng ta xác định tệp có định dạng XML hay không và sử dụng mã hóa ký tự nào.

Định nghĩa của Chỉ mục Sơ đồ trang web

Bây giờ, thay vì định nghĩa urlset , chúng ta thấy định nghĩa sitemapindex . Định nghĩa này bao gồm tất cả các sitemap có trong sitemap index và một lần nữa, phiên bản nào của chuẩn XML Sitemap được sử dụng. Cũng giống như định nghĩa urlset , định nghĩa sitemapindex được đóng ở cuối tài liệu:

Định nghĩa của từng sơ đồ trang web

Định nghĩa của từng sơ đồ trang web

Và sau đó đến phần chính: định nghĩa thực tế của từng sitemap. Giống như URL, mỗi định nghĩa sitemap cần chứa ít nhất thẻ loc-, chứa URL đầy đủ của từng sitemap XML.

Ngoài ra, định nghĩa sơ đồ trang web có thể tùy chọn chứa định nghĩa lastmod. Ngày cập nhật cuối cùng của sơ đồ trang web XML được tham chiếu. Một lần nữa trong " W3C datetime" định dạng.

Tôi nên đặt Sơ đồ trang web XML của mình ở đâu?

Giống như các trang trên website của bạn, Sơ đồ trang web XML nằm trên một URL riêng. Thông thường, URL của Sơ đồ trang web XML là / sitemap.xml, và bạn nên tuân theo quy ước này để các công cụ tìm kiếm dễ dàng phát hiện ra nó.

Tuy nhiên, nếu vì lý do nào đó mà bạn không thể thực hiện được điều này, bạn có thể chọn một vị trí hoặc tên tệp khác, miễn là bạn tham chiếu đến vị trí hoặc tên tệp đó trong tệp robots.txt thông qua chỉ thị Sitemap:

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Có bất kỳ hạn chế nào đối với Sơ đồ trang web XML không?

Sơ đồ trang web XML có một số hạn chế cần lưu ý:

  • Chúng không được chứa quá 50.000 URL.
  • Kích thước tệp của chúng bị giới hạn ở mức 50MB khi giải nén.

Nếu Sơ đồ trang web XML của bạn vượt quá các giới hạn này, bạn cần chia chúng thành nhiều Sơ đồ trang web XML và sử dụng Chỉ mục Sơ đồ trang web XML.

Tôi nên đặt Chỉ mục Sơ đồ trang web XML ở đâu?

Tương tự như Sơ đồ trang web XML, có một quy ước về vị trí và tên tệp của Chỉ mục Sơ đồ trang web XML: /sitemap_index.xml. Tuy nhiên, bạn có thể tự do thay đổi quy ước này, miễn là bạn tham chiếu đến nó trong tệp robots.txt của mình:

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Thực hành tốt nhất cho Sơ đồ trang web XML

Khi triển khai Sơ đồ trang web XML, điều cần thiết là phải tuân theo các biện pháp tốt nhất sau.

Giữ cho Sơ đồ trang web XML của bạn được cập nhật

Đảm bảo Sơ đồ trang web XML của bạn cung cấp hình ảnh cập nhật nhất về trang web. Bất cứ khi nào một trang bị xóa, nó cũng nên bị xóa khỏi Sơ đồ trang web XML. Nếu bạn đang sử dụng lastmodthẻ - tùy chọn, hãy đảm bảo cập nhật dấu thời gian bất cứ khi nào trang thay đổi.

Mẹo chuyên nghiệp

Đã lập chỉ mục, không được gửi trong sơ đồ trang webVấn đề trong Báo cáo phạm vi lập chỉ mục của Google Search Console rất hữu ích để xác minh xem sơ đồ trang web XML của bạn có bao gồm tất cả các trang có thể lập chỉ mục hay không.

Chỉ bao gồm các trang có thể lập chỉ mục trong Sơ đồ trang web XML của bạn

Sơ đồ trang web XML của bạn chỉ nên mô tả các trang có thể lập chỉ mục. Điều này có nghĩa là bạn nên loại bỏ tất cả các URL trỏ đến các trang chuyển hướng (ví dụ: mã trạng thái 301) và các trang bị thiếu.

Hơn nữa, các trang này cần có thể lập chỉ mục, nghĩa là chúng có thể được các công cụ tìm kiếm truy cập (không có ngoại lệ trong robots.txt ) và không có chỉ thị nào yêu cầu các công cụ tìm kiếm không lập chỉ mục trang (chẳng hạn như meta robots , liên kết chính tắc hoặc thẻ x-robots).

Giữ nguyên vị trí và tên tệp mặc định

Bất cứ khi nào có thể, hãy sử dụng vị trí và tên tệp mặc định cho Sơ đồ trang web XML ( /sitemap.xml) và Chỉ mục Sơ đồ trang web XML ( /sitemap_index.xml). Điều này giúp các công cụ tìm kiếm dễ dàng tìm thấy chúng nhất.

Tham chiếu Sơ đồ trang web XML trong tệp robots.txt của bạn

Khi bạn thay đổi URL của Sơ đồ trang web XML hoặc Chỉ mục Sơ đồ trang web XML, bạn nên tham chiếu URL đó trong tệp robots.txt. Tuy nhiên, ngay cả khi bạn vẫn sử dụng URL chuẩn, bạn vẫn nên thêm tham chiếu đến URL đó trong tệp robots.txt để đảm bảo khả năng được các công cụ tìm kiếm phát hiện.

Đừng ám ảnh về lastmod, priority và changefreq

Mặc dù bạn có thể định nghĩa các thuộc tính lastmod, priority và changefreq cho mỗi URL, nhưng việc này hoàn toàn tùy chọn. Việc định nghĩa chúng sẽ không gây hại gì, và có thể có một chút khả năng các công cụ tìm kiếm sẽ sử dụng thông tin này, nhưng nhìn chung, người ta thường hiểu rằng các công cụ tìm kiếm không (nhiều) chú ý đến chúng.

Tuân thủ các giới hạn cho Sơ đồ trang web XML

Đảm bảo rằng Sơ đồ trang web XML của bạn không chứa quá 50.000 URL và kích thước tệp chưa nén được giới hạn ở mức 50MB. Bất cứ khi nào vượt quá một trong hai giới hạn này, bạn nên chia nhỏ Sơ đồ trang web XML và sử dụng Chỉ mục Sơ đồ trang web XML.

Hướng dẫn tạo sitemap cho website bằng cách thủ công

Trước khi đi vào hướng dẫn tạo sitemap , các bạn hãy chuẩn bị 

+ 1 website đang hoạt động bình thường 

+ Notepad ++ để set thông số Priority cho các url theo ý bạn. 

Bước 1: Đăng nhập

Truy cập link: https://www.xml-sitemaps.com/

Bước 2: Nhập đầy đủ các thông số yêu cầu

+ Starting URL: Địa chỉ website của bạn

+ Change frequencty: Bạn hãy chọn daily (bạn có thể chọn thông số phù hợp) 

+ Last modification: Nên chọn "Use server's response"

+ Priority: Chọn để tự động (Automatically calculated priority). 

Sau khi điền đầy đủ các thông số, hãy kiểm tra lại xem đã chính xác hay chưa và ấn “Start” và đợi cho nó load xong. 

Sau khi chạy xong, sạn sẽ nhận được 1 list các file sitemap. Hãy quan tâm đến 4 file sau: sitemap.xml, ror.xml, sitemap.html và urllist.txt. 

Bước 3 : Download file xml về

Bước tiếp theo để tạo sitemap, để tạo thông số Priority cho các url theo ý bạn, hãy dùng Notepad ++ mở file sitemap.xml.

Chú ý: thông số Priority quy định sự quan trọng của các url đối với website của bạn, nếu Url nào quan trọng nó sẽ cho điểm cao hơn, cao nhất là 1.0 và thấp nhất 0.10. 

Bước 4: Tải file xml lên website

File này tương đương với file index của bạn.

Bước 5: Cập nhật sitemap

Bạn hãy vào công cụ seo Google Webmaster Tools để cập nhật sitemap. 

Những lưu ý quan trọng

  • Sitemap không đảm bảo 100% index: Gửi sitemap chỉ là một lời mời cho bot, không phải là lệnh bắt buộc chúng phải index. Chất lượng nội dung và cấu trúc liên kết vẫn là yếu tố quyết định.

  • Chỉ bao gồm các URL "chuẩn SEO": Chỉ đưa vào sitemap những URL bạn MUỐN được index. Loại bỏ các URL tham số, trùng lặp, trang bảo mật, trang admin...

  • Giữ sitemap cập nhật: Nếu website của bạn thường xuyên có nội dung mới, hãy đảm bảo sitemap được cập nhật tự động hoặc thủ công.

  • Sitemap không thay thế cho cấu trúc liên kết nội bộ: Một cấu trúc liên kết nội bộ mạnh mẽ vẫn là cách tốt nhất để phân phối sức mạnh và giúp bot điều hướng website.

Sitemap là một công cụ hỗ trợ đắc lực cho quá trình SEO kỹ thuật. Nó đơn giản, dễ tạo và mang lại lợi ích rõ rệt, đặc biệt cho các website mới hoặc có quy mô lớn. Việc tạo và khai báo sitemap nên được xem là một bước bắt buộc trong quy trình xây dựng và tối ưu hóa bất kỳ website nào.