Cộng đồng các SEOer đang vô cùng sôi động với vụ rò rỉ 1922 yếu tố mà Yandex – SE lớn thứ 4 trên thế giới – sử dụng trong thuật toán tìm kiếm của mình. Vụ việc này có lẽ là điều thú vị nhất đã xảy ra trong lĩnh vực SEO trong nhiều năm trở lại đây.
Mặc dù thực hư câu chuyện còn chưa có lời giải đáp chính xác, tuy nhiên các SEOer tại nhiều diễn đàn, hội nhóm đã bắt đầu phân tích các yếu tố xếp hạng tìm kiếm của Yandex, bao gồm PageRank và một số yếu tố liên quan đến liên kết khác để tranh thủ “thu lượm” được các thông tin “có thể” hữu ích cho các dự án của riêng mình.
Yandex bị rò rỉ 1922 yếu tố xếp hạng tìm kiếm?
Một cựu nhân viên bị cáo buộc đã làm rò rỉ kho lưu trữ mã nguồn Yandex, một phần trong đó chứa hơn 1.900 yếu tố được các công cụ tìm kiếm sử dụng để xếp hạng các trang web trong kết quả tìm kiếm.
Đoạn mã này xuất hiện dưới dạng Torrent trên một diễn đàn hack phổ biến, theo báo cáo của Bleeping Computer:
“…kẻ rò rỉ đã đăng một liên kết nam châm mà họ tuyên bố là ‘nguồn git Yandex’ bao gồm 44,7GB tệp bị đánh cắp khỏi công ty vào tháng 7 năm 2022. Các kho lưu trữ mã này được cho là chứa tất cả mã nguồn của công ty bên cạnh các quy tắc chống thư rác.”
Vụ việc rò rỉ thông tin này từ Yandex (công cụ tìm kiếm lớn thứ 4 trên thế giới và dành riêng cho người Nga) được nhiều người cho là sẽ ảnh hưởng không nhỏ đến ngành SEO không chỉ ở Việt Nam mà còn trên khắp thế giới (trừ một số khu vực). Về cơ bản thì các thuật toán tìm kiếm sẽ khá giống nhau, ở một số điểm thì Yandex còn được coi như là bản sao của Google, và có khá nhiều nhân sự đầu quân cho Yandex sau khi nghỉ việc tại Google. Vậy nên, chắc hẳn sẽ có một phần nào đó trong bộ tài liệu này cung cấp được các thông tin hữu ích để giúp bạn hiểu rõ hơn về cách thức hoạt động của các công cụ tìm kiếm, chẳng hạn như Google, từ quan điểm công nghệ, qua đó giúp cải thiện khả năng ranking cho website của riêng bạn.
Tuy nhiên, chúng ta cần nhớ rằng Yandex không phải là Google. Nên nếu bạn thấy một yếu tố xếp hạng được liệt kê bởi Yandex, điều đó không có nghĩa là Google sử dụng yếu tố đó ở cùng mức độ quan trọng. Và trên thực tế, Google có thể không sử dụng tất cả 1.922 yếu tố được liệt kê trong tài liệu bị “leak” ra ngoài, hoặc sẽ có nhiều yếu tố đã không còn được sử dụng nữa.
Xem thêm: Bảng báo giá dịch vụ SEO website chi tiết
Một vài yếu tố xếp hạng đáng chú ý:
Nhiều chuyên gia nói rằng có rất nhiều yếu tố xếp hạng trong tài liệu khá giống với các tín hiệu mà Google sử dụng để tìm kiếm. Martin MacDonald đã chia sẻ danh sách đầy đủ 1.922 yếu tố ở đây trên Web Marketing School. Bạn nên tải xuống vì có thể chúng sẽ bị “bay” khỏi internet trong tương lai mà không lý do ?
Một số tài liệu mà tác giả thu thập được trên các hội nhóm, diễn đàn:
(1) https://raw.githubusercontent.com/…/yandex-ranking… (Đoạn mã gốc được cho là bị rò rỉ)
(2) https://github.com/…/main/yandex-ranking-factors-ru.md (download từ Github)
(3) https://yandex-explorer.herokuapp.com/search?q=&o=all
(4) https://en.rattibha.com/thread/1619370810959093760 (được cho là phần 2)
(5) https://twitter.com/OritSiMu/status/1619119659655258112 (Nguồn gốc)
Alex Buraks đã tạo hai chủ đề Twitter – chủ đề đầu tiên , chủ đề thứ hai – phân tích các yếu tố xếp hạng khác nhau. Có một chủ đề Twitter thú vị khác ở đây từ Michael King.
Dan Taylor cũng chia sẻ một số phát hiện trong Rò rỉ dữ liệu Yandex: Chúng tôi đã học được gì về thuật toán tìm kiếm trên Tin tức tìm kiếm của Nga.
Nhiều yếu tố xếp hạng của Yandex là những gì bạn muốn thấy:
- PageRank và nhiều yếu tố liên quan đến liên kết (ví dụ: độ tuổi, mức độ liên quan, v.v.).
- Sự liên quan của văn bản.
- Tuổi nội dung và sự tươi mới.
- Tín hiệu hành vi của người dùng cuối.
- Độ tin cậy của máy chủ.
- Một số trang web được ưu tiên (ví dụ: Wikipedia).
Một số yếu tố xếp hạng mà các SEOer thấy đáng ngạc nhiên: số lượng khách truy cập duy nhất, phần trăm lưu lượng truy cập không phải trả tiền và xếp hạng tên miền trung bình trên các truy vấn…
Và như Taylor đã chỉ ra, 244 trong số các yếu tố xếp hạng được phân loại là không sử dụng và 988 yếu tố không được dùng nữa, “có nghĩa là 64% tài liệu không được sử dụng tích cực hoặc đã được thay thế – vì vậy, nó giống như ~690 yếu tố xếp hạng tiềm năng và một rất nhiều trong số chúng chứa những mô tả sơ sài.
Bài viết liên quan: Rich Snippets là gì? Cách tạo Rich Snippets cho website
Phản ứng từ Yandex trước vụ việc:
Vì đoạn mã này xuất hiện trên một diễn đàn hack phổ biến, nên ban đầu người ta cho rằng Yandex đã bị hack. Tuy nhiên, Yandex đã phủ nhận điều này và đưa ra tuyên bố sau:
“Yandex không bị hack. Dịch vụ bảo mật của chúng tôi đã tìm thấy các đoạn mã từ kho lưu trữ nội bộ trong miền công cộng, nhưng nội dung khác với phiên bản hiện tại của kho lưu trữ được sử dụng trong các dịch vụ Yandex.
Kho lưu trữ là một công cụ để lưu trữ và làm việc với mã. Hầu hết các công ty đều sử dụng mã theo cách này trong nội bộ.
Kho lưu trữ là cần thiết để làm việc với mã và không dành cho việc lưu trữ dữ liệu người dùng cá nhân. Chúng tôi đang tiến hành một cuộc điều tra nội bộ về lý do phát hành các đoạn mã nguồn ra công chúng, nhưng chúng tôi không thấy bất kỳ mối đe dọa nào đối với dữ liệu người dùng hoặc hiệu suất của nền tảng.”
Phản ứng từ cộng đồng SEOer:
Michael King – một chuyên gia về SEO – đã nghiên cứu sâu tài liệu bị rò rỉ này. Hóa ra trên thực tế có 17.854 yếu tố xếp hạng chứ không phải 1.922. Và bộ tài liệu này cũng thực sự chưa được kiểm chứng về độ tin cậy.
Trên nhiều diễn đàn, hội nhóm SEO tại Việt Nam, đa số mọi người cũng cho rằng những tài liệu bị rò rỉ này là không có căn cứ, và chỉ là “chiêu trò” marketing cho Yandex vì hầu hết các yếu tố xếp hạng đều đã được biết đến và cũng không có bất kỳ mối đe dọa nào đối với SE này khi tài liệu bị leak.
Trên đây là một vài chia sẻ nhỏ từ BMIN MEDIA. Rất cảm ơn sự quan tâm theo dõi của bạn đọc. Xem thêm nhiều bài viết hấp dẫn khác tại: https://bmin.com.vn/. Xin chào và hẹn gặp lại trong các bài viết tiếp theo!
Bài viết liên quan: