Lỗi 404 và Soft 404: Sự khác biệt là gì và cách để khắc phục chúng

20/11/13
367
142
43
#1
(WayToMarketing) - Mỗi trang tải trong trình duyệt web đều có mã phản hồi trong header HTTP mà có thể hoặc không thể nhìn thấy trên trang web. Có rất nhiều mã phản hồi khác nhau mà máy chủ cung cấp để truyền tải trạng thái loading của trang. Nhìn chung, các mã từ 400 đến 499 cho thấy rằng trang không được tải. Mã 404 là mã duy nhất mang ý nghĩa cụ thể - trang web thực sự biến mất và có lẽ sẽ không quay trở lại.

slide.jpg

Lỗi Soft 404 là gì?

Lỗi soft 404 không phải là mã phản hồi chính thức được gửi đến trình duyệt web. Đó chỉ là một nhãn mà Google bổ sung vào một trang trong chỉ mục của họ.

Khi Google crawl các trang, nó phân bổ các nguồn tài nguyên để đảm bảo rằng không có thời gian nào bị lãng phí bằng cách crawl các trang bị thiếu mà không cần được index.

Tuy nhiên, một số máy chủ có cấu hình kém và trang tải thiếu mã 200 ngay cả khi trang web đã nói rõ rằng trang không được tìm thấy, trang đó có thể được index, đó là một cách lãng phí tài nguyên của Google.

Để giải quyết vấn đề này, Google lưu ý các đặc điểm của trang 404 và cố gắng phân biệt trang 404 có thực sự là trang 404 hay không. Hay nói cách khác, Google biết rằng nếu nó trông giống như 404 và hoạt động giống như 404 thì đó có thể là trang 404 thực sự.

Có khả năng xác định nhầm một trang là soft 404

Ngoài ra còn có trường hợp trang đó không thực sự thiếu nhưng một số đặc điểm đã kích hoạt Google phân loại nó như một trang bị thiếu. Một vài đặc điểm này bao gồm thiếu nội dung trên trang và có quá nhiều trang tương tự trên trang web.

Những đặc điểm này cũng tương tự như các yếu tố mà thuật toán Panda tìm cách giải quyết. Bản cập nhật Panda coi nội dung sơ sài (thin content) và trùng lặp là các yếu tố xếp hạng tiêu cực. Do vậy, việc khắc phục những vấn đề này sẽ giúp tránh được cả soft 404 và Panda.

Lỗi 404 có 2 nguyên nhân chính:

- Lỗi liên kết, hướng người dùng đến một trang không tồn tại.
- Một liên kết đến một trang đã tồn tại và đột nhiên biến mất.

Lỗi liên kết

Nếu nguyên nhân gây ra 404 là lỗi liên kết, bạn chỉ cần sửa các liên kết. Phần khó của công việc này là tìm tất cả các liên kết bị hỏng trên một trang web. Đó có thể là thách thức cho các trang web lớn, phức tạp khi có hàng nghìn hoặc hàng triệu trang. Trong những trường hợp như thế này, công cụ thu thập có thể giúp ích bạn. Bạn có thể sử dụng các phần mềm như Xenu, DeepCrawl, Screaming Frog hoặc Botify.

Một trang không tồn tại

Khi một trang không tồn tại, bạn có 2 lựa chọn:

- Restore trang nếu vô tình loại bỏ
- Chuyển hướng 301 đến trang liên quan gần nhất nếu nó đã bị loại bỏ.

Trước tiên, bạn phải xác định tất cả các lỗi liên kết trên trang web. Tương tự như việc tìm kiếm tất cả các lỗi liên kết trên một trang web có quy mô lớn, bạn có thể sử dụng công cụ thu thập dữ liệu. Tuy nhiên, công cụ thu thập dữ liệu không thể tìm thấy các trang đơn lẻ, đó là những trang không được liên kết đến bất cứ đâu trong liên kết navigational hoặc từ bất kỳ trang nào.

Các trang đơn lẻ có thể tồn tại nếu chúng từng là một phần của trang web, sau đó khi thiết kế lại trang web, liên kết tới trang cũ đã biến mất nhưng liên kết external từ các trang web khác có thể vẫn liên kết với chúng. Để kiểm tra lại xem loại trang này có tồn tại trên trang web của bạn hay không, bạn có thể sử dụng nhiều công cụ khác nhau.

Google Search Console

Search Console sẽ báo cáo các trang 404 khi trình thu thập của Google đi qua tất cả các trang mà nó có thể tìm thấy. Điều này có thể bao gồm các liên kết từ các trang web khác đến các trang đã từng tồn tại trên trang web của bạn.

Google Analytics

Bạn sẽ không tìm thấy báo cáo trang bị thiếu trong Google Analytics theo mặc định. Tuy nhiên, bạn có thể theo dõi chúng theo một số cách.

Thứ nhất, bạn có thể tạo báo cáo tùy chỉnh và phân đoạn các trang có title đề cập đến Error 404 – Page Not Found.

Cách khác để tìm các trang đơn lẻ trong Google Analytics là tạo các nhóm nội dung tùy chỉnh và gán tất cả các trang 404 cho một nhóm nội dung.

Site: Operator Search Command

Tìm Google với “site:example.com” sẽ liệt kê tất cả các trang của example.com được Google index. Sau đó, bạn có thể kiểm tra từng trang đang tải hoặc nếu chúng được cho là 404s.

Vì tất cả các công cu tìm kiếm chỉ cung cấp cho bạn một tập con, chạy nó trên nhiều công cụ tìm kiếm có thể giúp đưa ra một danh sách các trang trong trang web của bạn. Danh sách này có thể được export và chạy trên các công cụ để kiểm tra 404. Tôi chỉ cần làm điều này bằng cách thêm tất cả các URL dưới dạng liên kết trong một tập tin HTML và tải nó lên Xenu để kiểm tra nhanh lỗi 404.

Các công cụ nghiên cứu backlink khác

Các công cụ nghiên cứu backlink như Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools và CognitiveSEO cũng có thể hỗ trợ bạn.

Hầu hết các công cụ này sẽ xuất danh sách các backlink đang liên kết đến domain của bạn. Từ đó, bạn có thể kiểm tra tất cả các trang đang được liên kết và tìm lỗi 404.

Cách để sửa lỗi soft 404

Công cụ crawl sẽ không phát hiện ra soft 404 vì nó không thực sự là lỗi 404. Nhưng bạn có thể sử dụng các công cụ crawl để phát hiện một thứ khác. Dưới đây là vài điều cần tìm:

- Nội dung sơ sài: một số công cụ crawl không chỉ báo cáo các trang có nội dung sơ sài mà còn hiển thị tổng số từ. Từ đó, bạn có thể sắp xếp các URL dựa vào số từ của nội dung. Bắt đầu với các trang có số từ ít và đánh giá xem trang đó có phải là sơ sài hay không.

- Nội dung trùng lặp: một số công cụ crawl đủ phức tạp để phân biệt tỷ lệ phần trăm của trang là nội dung mẫu. Nếu nội dung chính gần giống với nhiều trang khác, bạn nên xem lại các trang này và xác định lý do tại sao lại có nội dung trùng lặp trên trang web của bạn.

Bên cạnh các công cụ thu thập dữ liệu, bạn cũng có thể sử dụng Google Search Console và kiểm tra dưới các lỗi thu thập để tìm các trang được liệt kê dưới dạng soft 404s.

Việc thu thập toàn bộ trang web để tìm các nguyên nhân gây ra soft 404s cho phép bạn tìm và khắc phục sự cố trước khi Google phát hiện ra chúng. Sau khi phát hiện ra các vấn đề soft 404, bạn sẽ cần phải sửa chúng.

Hầu hết các giải pháp là phổ biến. Điều này có thể bao gồm những điều đơn giản như mở rộng các trang có nội dung sơ sài hoặc thay thế nội dung trùng lặp bằng những nội dung mới và duy nhất.

Dưới đây là một vài điều cần xem xét:

- Hợp nhất các trang: kết hợp nhiều trang sơ sài vào một trang có thể phù hợp hơn nếu các chủ đề có liên quan. Không chỉ giải quyết vấn đề nội dung sơ sài mà nó còn có thể khắc phục các vấn đề nội dung trùng lặp. Ví dụ: một trang web thương mại điện tử bán giày với nhiều màu sắc và kích cỡ khác nhau có thể có các URL khác nhau cho mỗi kích thước và màu sắc. Điều này sẽ dẫn đến một lượng lớn các trang có nội dung sơ sài và tương đối giống nhau. Phương pháp tiếp cận hiệu quả hơn là đặt tất cả vào một trang và liệt kê các tùy chọn có sẵn.

- Tìm các vấn đề kỹ thuật gây ra nội dung trùng lặp: sử dụng công cụ như Xenu bạn có thể tìm thấy các vấn đề nội dung trùng lặp bằng cách xem URL. Điều này bao gồm những thứ như www vs non-www URLs, http và https với index.html với việc có và không có các tham số theo dõi.

Google đối xử lỗi 404 và soft 4004 giống nhau

Soft 404 không thực sự là lỗi 404 nhưng Google sẽ deindex các trang đó nếu chúng không được khắc phục nhanh chóng. Tốt nhất là nên crawl trang web của bạn thường xuyên để xem có lỗi 404 hay soft 404 không. Các công cụ crawl phải là một thành phần chính trong dự án SEO của bạn.

 
Sửa lần cuối:

Bạn có quan tâm?

Donate

Thành viên trực tuyến