Lỗi Duplicate content là gì?
Lỗi Duplicate content là gì? – Google làm việc theo nguyên tắc hướng đến lợi ích người dùng, luôn muốn tạo ra những kết quả tìm kiếm đa dạng, chất lượng về nội dung. Do đó việc trùng lặp nội dung (duplicate content) sẽ gây khó khăn cho người dùng, buộc các bộ máy tìm kiếm phải tung ra thuật toán để hạn chế tình trạng đó. Chính điều này gây ra nhiều ảnh hưởng nghiêm trọng đến SEO.
Vậy lỗi Duplicate content là gì? Cách khắc phục lỗi Duplicate content như thế nào?
>> Google index bài viết của bạn như thế nào?
>> Tình trạng Google dance là gì?
Lỗi Duplicate content là gì?
Duplicate content là việc một nội dung bị lặp đi lặp lại tại nhiều trang web khác nhau, có hơn một URL cùng trỏ về 1 một nội dung duy nhất. Chính điều này sẽ gây khó khăn cho bộ máy tìm kiếm trong việc sắp xếp thứ hạng cho cùng một từ khóa nhưng lại xuất hiện ở nhiều website khác nhau.
Do đó, để đưa ra kết quả tìm kiếm tốt nhất, hạn chế các trang sao chép, Google buộc phải lựa chọn phiên bản có nhiều khả năng là trang gốc nhất hoặc là trang tốt nhất. Những trang bị đánh giá là sao chép có thể bị Google phạt dưới hình thức:
– Phạt mất nội dung
– Giảm thứ hạng trên SERP
Các hình thức của lỗi Duplicate content:
- Bản sao gốc: nội dung trùng lặp hoàn toàn, giống hệt với một trang web khác, điểm khác biệt duy nhất là URL.
- Gần giống với bản gốc: biến tấu về nội dung, khác biệt rất nhỏ về một số từ ngữ, một đoạn văn, hình ảnh hoặc xáo trộn các đoạn văn.
- Cross Domain: giống một phần của nội dung. Trường hợp này thường xuyên xảy ra, khi một nội dung được chia sẻ trên 2 trang web khác nhau với mỗi trang web là một phần nội dung gốc, vì thế nó có thể là dạng bản gốc hoặc dạng gần giống với bản gốc.
Cách khắc phục lỗi Duplicate content:
- 404 Not found:
Nếu nội dung không mang lại lợi ích cho người dùng, không mang cho bạn những liên kết hay traffic thì hãy xóa nó đi và để lỗi 404.
- Chuyển hướng 301:
Thiết lập chuyển hướng từ các trang bản sao về một trang đích duy nhất. Điều này sẽ tác động tích cực đến khả năng được xếp hạng tốt trong công cụ tìm kiếm.
- Rel=”canonical”
Các rel = canonical đi cùng một link juice (ranking power) cũng giống như là một chuyển hướng 301, và để thực hiện thì thường mất ít thời gian hơn. Khi các bots tìm kiếm thu thập thông tin trên một trang có gắn thẻ canonical nó sẽ hiểu và loại bỏ nội dung trùng lặp trên URL đó.
- Meta Robots Tag
Cách này giúp điều hướng khả năng tìm kiếm thông tin của bots tại trang, khi đó bots sẽ không index trang này hoặc các liên kết trong đó. Cách này được khá nhiều công ty SEO áp dụng và làm cho trang thân thiện hơn với Search Engine.
- Robot.txt
Cách này áp dụng với các trang chưa index, còn với các trang đã được index thì vô tác dụng. Khi đó, nội dung trùng lặp sẽ hiển thị với người dùng nhưng được ngăn chặn không cho bọ tìm kiếm thu thập thông tin.
- Parameter Handling trong Google Webmaster Tools
Google Webmaster Tools cho phép bạn thiết lập tên miền ưa thích cho trang web của bạn và xử lý các thông số URL khác nhau. Tuy nhiên cách này chỉ có tác dụng với bộ máy tìm kiếm của Google.
- Google URL Removal
Google Webmaster Tool cũng cho phép bạn xóa những nội dung trùng lắp. Sau khi vào Google Webmaster Tool, bạn click vào “Site Configuration”, click tiếp “Crawler Access”. Sau đó xuất hiện 3 tab, bạn click vào tab thứ 3 “Remove URL” .
Tuy nhiên, trước tiên bạn cần 404, Robots.txt blog hay thẻ meta Noindex rồi hãy thực hiện việc xóa những nội dung trùng lắp này.
Ngoài ra, bạn có thể chủ động hạn chế lỗi Duplicate content bằng cách:
- Tự xây dựng nội dung cho website, không sao chép dù chỉ một phần. Lượng bài viết đa dạng và chất lượng về nội dung sẽ được Search Engine đánh giá rất cao.
- Kiểm tra nội dung website có bị sao chép đi nơi khác hay không (bạn có thể kiểm tra tại http://copyscape.com)
- Khi sử dụng nội dung của website khác, bạn nên ghi rõ nguồn và có link cụ thể về nội dung nguồn ấy.
- Giảm thiểu các nội dung tương tự bằng cách tích hợp chúng lại.
Chúc các bạn thành công!
Pingback: Những thuật toán thông dụng của google trong SEO