Bí mật của Google Panda được bật mý từ bằng sáng chế

  • July 20, 2018
  • Blog

Thuật toán của Google là một tổ hợp thuật toán rất phức tạp và thường xuyên cập nhập. Tính trung bình, mỗi năm Google update khoảng 600 lần, như vậy ngày nào chúng ta cũng sẽ có tối thiểu 1 cập nhật nào đó mà chúng ta không hề biết.

Thỉnh thoảng, Google sẽ tung ra một bản cập nhật lớn mà nó sẽ đặt tên, chẳng hạn như: Google Panda, Google Penguin, Google Hummingbird hay Google Pigeon…

Những thuật toán này khi chính thức được áp dụng đã có những tác động mạnh mẽ đến kết quả tìm kiếm tác động đến hàng tỷ website. Ví dụ khi Google Panda ra mắt lần đầu tiên, nó đã tác động đến 12% tổng lượng tìm kiếm trên toàn thế giới.

Tại sao Google làm điều này?

Bởi vì Google liên tục chiến đấu với những nội dung xấu. Họ luôn muốn cung cấp cho người dùng những nội dung chất lượng nhất, phù hợp nhất, hữu ích nhất…để đem lại những trải nghiệm tốt nhất cho người dùng. Để làm được điều đó họ phải đảm bảo rằng những nội dung tốt nhất sẽ được xếp hạng cao trên công cụ tìm kiếm của họ. Ngược lại, nếu các kết quả hiển thị đầu tiên đưa người dùng đến những nội dung không chất lượng, người dùng của họ sẽ không hài lòng.

Nhưng rất nhiều trang web cố gắng tìm sơ hở trong hệ thống của Google để đẩy thứ hạng website của họ có thứ hạng cao khi người dùng tìm kiếm trên Google. Một ví dụ điển hình về điều này là việc “nhồi nhét từ khóa”.

Ở thời điểm 2011 trở về trước, thuật toán của Google xác định từ khóa trong nội dung là tiêu chí tối ưu và thế là các trang web bắt đầu nhồi nhét từ khóa, kể cả những từ không liên quan để tăng thứ hạng cho website nhanh chóng.

Để chống lại điều này, Google xây dựng đội ngũ cải thiện chất lượng tìm kiếm (Quality Search Team), nhiệm vụ của đội này là liên tục phát triển những thuật toán mới để đảm bảo chất lượng tìm kiếm. Thông tin về các thuật toán này có thể được tìm thấy mỗi khi Googlec công bố có thêm một bằng sáng chế mới.

Tìm hiểu lịch sử những lần Google update thuật toán

Google Algorithm Updates timeline

Một điều cần lưu ý, khi Google update thuật toán, Google không giải thích chính xác những gì đã thay đổi. Điều này có nghĩa là tất cả những gì chúng ta có thể khám phá về thuật toán mới chỉ là phỏng đoán. Có chăng chúng ta sẽ dựa vào bằng sáng chế Google đã công bố để tìm hiểu cơ chế hoạt động mới, cách Google đã áp dụng và tìm ra cách thuật toán mới vận hành, từ đó phá vỡ nó mà thôi.

Tại sao Google không chia sẻ thông tin cụ thể về những thuật toán mới?

Bởi vì họ muốn chúng ta tập trung vào việc tạo những nội dung chất lượng chứ không chỉ là làm sao để website có thứ hạng tìm kiếm tốt. Họ muốn thuật toán mới là để tưởng thưởng cho những website đang hoạt động đúng cách, tạo ra giá trị và nội dung hữu ích cho người dùng.

Chúng ta có thể hiểu các thuật toán mới ra đời là để trừng phạt những website cố gắng sử dụng những phương pháp SEO Blackhat để có thứ hạng tìm kiếm cao mà không có nội dung thực sự tốt. Nếu Google công bố những thông tin về cách thuật toán vận hành, sẽ rất nhiều người áp dụng những phương pháp SEO Blackhat để lách luật và tìm cách tránh bị phạt.

Nhưng ở khía một góc nhìn khác, nếu biết được cách thức thuật toán mới của Google vận hành như thế nào nó sẽ hữu ích với rất nhiều người, dù bạn có đang làm SEO Whitehat đi nữa bạn chắc chắn vẫn sẽ cần. Chính vì thế mà chúng tôi bắt đầu nghiên cứu về những bằng sáng chế của Google để tìm kiếm thông tin hữu ích để giúp tăng thứ hạng trên công cụ tìm kiếm một cách khách quan và vẫn đem lại những giá trị tuyệt vời với người dùng

Thuật toán Google Panda

Panda là thuật toán thay đổi đầu tiên của Google. Lần đầu ra mắt vào năm 2011, nhưng lúc này, bằng sáng chế chưa được công nhận, nhưng đến ngày 25/03/1014 Google đã được chấp nhận bằng sáng chế này.

Tại sao Google lại phải chờ lâu như vậy để được cấp bằng sáng chế?

Có lẽ họ muốn tung ra các bản cập nhập trước để loại bỏ những nội dung không hữu ích trước khi mọi người biết chuyện gì đã thực sự xảy ra. Đây là hướng đi thông minh của Google và nó đã đem lại những hiệu quả tích cực. Trước khi những thông tin cụ thể về Google Panda chưa được công bố đầy đủ, họ có thể xác định chính xác hiệu quả đem lại khi loại bỏ những website có nội dung xấu và không hữu ích với người dùng.

Kỹ thuật phát triển nội dung mũ đen (Black hat) kiểu như: content farming, article spinning, content scraping and spamming sẽ bị phạt nặng bởi Google Panda chứ không  chỉ là nội dung mỏng (thin content) hoặc trùng lặp nội dung (Duplicate content)

Article Spinning

Article spinning hay Spin content là một dạng cùng một nội dung nhưng dùng những từ đồng nghĩa, tương đồng, để viết lại thành một bài hoặc rất nhiều bài. Những bài viết này được viết lại và đăng trên hàng trăm hàng ngàn website khác nhau.

Tại sao lại sử dụng Article Spinning?

Mục đích của dạng nội dung này dùng để làm backlink, tiết kiệm chi phí nhưng vẫn đem lại sự thăng hạng cho website. Về cơ bản, phải đến 96,69% nội dung là sao chép từ website khác. Hiện tại không thể tồn tại một nội dung mà vài trăm web cùng sử dụng, đó là lý do tại sao artile spinning được sử dụng.

Đây là lý do tại sao Article Spinning hay Spin content được sử dụng. Ngoài từ đồng nghĩa, còn có thể thay thế danh từ, động từ, để quay vòng, trộn đều thành những văn bản hoàn toàn khác nhau…NHƯNG NỘI DUNG HOÀN TOÀN VÔ NGHĨA và KÉM CHẤT LƯỢNG. Những nội dung này vẫn tồn tại cho đến khi Google Panda ra đời.

Google thực sự có bằng sáng chế cho thuật toán Panda để trừng phạt loại bài viết “Article Spinning”. Bằng sáng chế này được đặt tên là “Identifying gibberish content in resources” – “Xác định nội dung vô nghĩa trong tài nguyên” nhưng khi bằng sáng chế được công bố, chúng ta thấy rằng Google còn nhắm tới mục tiêu xử phạt những website nhồi nhét từ khóa (keyword stuffing) bên cạnh xử phạt những website sử dụng nội dung trộn lẫn (article spinning)

Mô tả thuật toán Google Panda

Mô tả thuật toán Google Panda

Mô tả thuật toán Google Panda

Để phát hiện nhồi nhét từ khóa, Panda không chỉ kiểm tra số lượng từ khóa bất thường mà còn kiểm tra cả mặt ngữ pháp có chuẩn hay không? Nếu Google phát hiện ra một lượng lớn từ vô nghĩa, Google sẽ giả định rằng bài viết này thuộc dạng bài Blackhat cho dù là nhồi nhét từ khóa (vì phần mềm tạo nội dung tự động, spin content thường tạo ra những nội dung vô nghĩa), sau đó Google tạo ra một mô hình ngôn ngữ ghi điểm với điểm số truy vấn kết hợp tính toán về mặt điểm số sai ngữ pháp. Nếu điểm số vô nghĩa cao, khả năng lớn là bạn đang tạo ra nội dung bằng phần mềm tự động  và từ đó bạn sẽ bị giảm thứ hạng và có thể bị phạt nặng.

Cách thuật toán Gogole Panda vận hành

 

Vậy là bạn đã biết cách Google Panda vận hành để xử lý những bài viết dạng Article Spinning, ở phần 2 của bài viết này, mình sẽ viết tiếp cách Google Panda xử lý về Keyword Stuffing, Duplicate Content, Content Scraping.

Vui lòng ghi rõ nguồn Seva.vn khi sao chép lại nội dung này.

Facebook Comments

Bài Viết Liên Quan

Xem tất cả