Mục lục
Lịch Sử Ra Đời Và Phát Triển Của Thuật Toán BERT
Tại sao chúng ta cần đến BERT?
Con người luôn tò mò và hiếu kỳ với mọi thứ mới lạ, khi gặp những vấn đề khó, lại khiến sự hiếu kỳ đó tăng lên một bậc, và chúng ta thường sử dụng công cụ tìm kiếm để mong ngay lập tức có câu trả lời. Vì lẽ đó mà bộ máy tìm kiếm của Google nhận được hơn 3,5 tỉ lượt truy cập mỗi ngày, theo số liệu năm 2019 thì 1 năm trung bình website này xử lý khoảng 2 nghìn tỷ lượt tìm kiếm từ người dùng trên toàn cầu. Trong đó thì có hơn 15% những câu hỏi đặt ra là các vấn đề mới, chưa xuất hiện trên hệ thống trước đó hoặc những câu trả lời của Googel không đưa ra đáp án sát như mong muốn tìm kiếm của người dùng.
Ví dụ: Trước khi có BERT, với cụm “math practice books for adults” (sách bài tập toán cho người lớn), kết quả tìm kiếm thông thường sẽ chỉ cho ra một quyển sách Toán dành cho lớp 6 đến lớp 8. Mặc dù bạn đã cố tình sử dụng cụm từ “for adults” để cung cấp ngữ cảnh, nhưng Google đã bỏ qua và cung cấp kết quả như trên.
Vậy nên, làm thế nào để giải quyết bài toán tối ưu thuật toán tìm kiếm? Làm thế nào để hiểu sát hơn ý nghĩa mà người dùng thực sự đang muốn tìm kiếm? Thuật toán BERT ra đời chính là để trả lời cho những câu hỏi trên.
Ai là người đã xây dựng và phát triển BERT
Jacob Devlin và Ming-Wei Chang đến từ Google đã tạo ra BERT và công bố vào năm 2018. Tuy nhiên, đến tháng 10 năm 2019, Bert mới chính thức xuất hiện trong hệ thống tìm kiếm Google và được áp dụng cho các truy vấn sử dụng ngôn ngữ là tiếng Anh.
Cho đến nay, BERT, được coi là ‘một trong những bước tiến lớn nhất trong lịch sử Tìm kiếm’ và cách mạng hóa cách công cụ tìm kiếm lớn nhất của Google nói riêng và thế giới nói chung trong vòng 5 năm trở lại đây. Thuật toán BERT đã mở rộng áp dụng lên đến 70 ngôn ngữ, trong đó có tiếng Việt. Ngoài ra, mô hình BERT cũng được sử dụng để cải thiện chất lượng của các trích dẫn phản hồi cho người dùng tại hơn 20 quốc gia.
Vậy cụ thể BERT là gì?
BERT, là từ viết tắt của “Bidirectional Encoder Representations from Transformers” (tạm dịch: Mô hình mã hóa hai chiều dữ liệu từ các khối Transformer), là một phương pháp kỹ thuật được xây dựng dựa trên mô hình mạng mô phỏng theo hệ thống nơ-ron thần kinh của con người dùng trong quá trình xử lý ngôn ngữ tự nhiên (NLP). Nói một cách đơn giản, dễ hiểu, thì nó có thể được sử dụng để giúp Google phân biệt rõ hơn ngữ cảnh của các từ xuất hiện trong truy vấn tìm kiếm..
Mạng nơ-ron đã tồn tại từ lâu trước khi các công cụ tìm kiếm ra đời nhưng chưa bao giờ được coi là một phần quan trọng trong việc cải thiện cách thức hoạt động của công cụ này. Xét cho cùng, người dùng là luôn động lực và ưu tiên số 1 để Google hay những người làm SEO thay đổi.
Cách BERT Hoạt Động Và Ảnh Hưởng Của Nó Đến Kết Quả Tìm Kiếm Của Google Vào Năm 2020
Thuật toán BERT có hiệu lực vào cuối tháng 10 năm 2019, mặc dù chỉ đang ảnh hưởng đến 10% số lượt tìm kiếm, nhưng nếu nhân nó với hơn 3,5 tỷ lượt tìm kiếm trên Google mỗi ngày thì con số này thật đáng kinh ngạc. Đây chỉ là bước đầu cho việc thay đổi cách thực hiện các tìm kiếm có điều kiện thông qua tính năng tìm kiếm bằng giọng nói có sự hỗ trợ của AI như Google Assistant vào một thời điểm nào đó trong tương lai.
Điểm đột phá của BERT nằm ở khả năng tương tác “hai chiều rất sâu” với các mô hình ngôn ngữ dựa trên toàn bộ tổ hợp các từ trong một câu, thay vì cách thức tiếp cận dựa trên thứ tự xuất hiện của các từ (từ trái qua phải hoặc kết hợp giữa trái qua phải và phải qua trái).
“Chẳng hạn như từ “bank” trong tiếng Anh, nếu không có ngữ cảnh thì sẽ có cùng sự thể hiện về mặt từ ngữ như trong cụm “bank account” (tài khoản ngân hàng) và “bank of the river” (bờ sông). Các mô hình ngữ cảnh thay vào đó sẽ diễn dịch ý nghĩa của từng từ dựa trên những từ ngữ khác xuất hiện trong câu. Ví dụ, trong câu “I accessed the bank account” (Tôi đăng nhập vào tài khoản ngân hàng), thì mô hình ngữ cảnh đơn chiều (unidirectional contextual model) sẽ diễn giải từ “bank” dựa trên cụm “I accessed the” xuất hiện trước nó, mà không tính đến từ “account”. Tuy nhiên, BERT sẽ diễn giải từ “bank” bằng cách sử dụng cả ngữ cảnh đứng trước và sau từ đó – “I accessed the … account”.
Google đã trình bày nhiều ví dụ về việc ứng dụng BERT trong hệ thống tìm kiếm có thể ảnh hưởng đến các kết quả ra sao.
Ví dụ đầu tiên: Với truy vấn “math practice books for adults” (sách bài tập toán cho người lớn) đã được nhắc đến ở đầu bài viết, thì trước đây kết quả tìm kiếm tự nhiên có vị trí cao nhất sẽ là một quyển sách Toán dành cho khối lớp 6 đến lớp 8. Với việc ứng dụng BERT vào bộ máy hoạt động, Google sẽ trả về thông tin là một quyển sách có tựa đề “Math for Grownups” (Toán học cho người lớn) ở kết quả cao nhất trong số các kết quả tìm kiếm.
Kết quả tìm kiếm khi có BERT (Nguồn ảnh, Google)
Ví dụ thứ hai: Với cụm từ khóa “Đi du lịch từ Việt Nam đến Mỹ cần visa 2020”. Thuật toán thông thường của Google sẽ trả về kết quả không liên quan như Việt Nam miễn visa cho bao nhiêu quốc gia, cần chuẩn bị gì khi du lịch Mỹ. Trong khi nếu áp dụng BERT, kết quả cho ra nhiều kết quả liên quan hơn. Google hiểu hiểu mối tương quan trong cụm từ “Việt Nam đến Mỹ” với từ nối “đến” và cho ra truy vấn chính xác với câu hỏi.
Kết quả trên nền tảng và thuật toán thông thường
Còn đây là kết quả khi áp dụng BERT
Kết quả tìm kiếm khi có BERT (Nguồn ảnh, Google)
BERT cũng tác động đến những kết quả xuất hiện trong phần trích dẫn nổi bật
Trong một ví dụ khác dưới đây, Google so sánh hai đoạn trích dẫn nổi bật đối với truy vấn “parking on a hill with no curb” (đỗ xe trên đồi không có lề đường) và giải thích rằng “Trước đây, một truy vấn như thế này sẽ làm cho hệ thống bị nhầm lẫn – chúng tôi đã quá tập trung vào từ “curb” (lề đường) và phớt lờ đi từ “no” (không), hệ thống không hiểu được từ đó có ý nghĩa then chốt như thế nào để phản hồi lại cho truy vấn một cách phù hợp. Vậy nên chúng tôi đã trả về những kết quả liên qua đến việc đỗ xe trên một ngọn đồi có lề đường.”
Điều Này Ảnh Hưởng Như Thế Nào Đến Việc Viết Nội Dung Cho SEO Trong Tương Lai?
Điều thú vị ở thuật toán BERT là bạn không thể lập kế hoạch tối ưu hóa nó- đây là một bản cập nhật tìm cách nhấn mạnh quan điểm của Google rằng bạn phải viết nội dung tuyệt vời tập trung vào người dùng để có thứ tự xếp hạng tốt .
Chủ sở hữu trang web và người làm SEO cũng không cần phải biết mọi thứ liên quan đến BERT mà chỉ cần điều chỉnh khái niệm về việc “Các bộ máy tìm kiếm đang thay đổi cách hiểu và cách tương tác với con người như thế nào” phần còn lại hãy tập trung vào chiến lược tạo nội dung của mình.
Danny Sullivan, người phát ngôn của Google Tìm kiếm, đã Tweet trên trang cá nhân của mình rằng “Các nguyên tắc cơ bản của việc chúng tôi tìm cách thưởng cho nội dung tuyệt vời vẫn không thay đổi” đây coi như là một thông tin chi tiết về bản phát hành của BERT nói riêng, và xu hướng lớn của các thuật toán của Google nói chung trong vài năm qua.
Làm Thế Nào Để Chủ Động Trước Những Bản Cập Nhật Thuật Toán Từ Google?
Bây giờ không còn là năm 2010 nữa – cách làm SEO đã thay đổi rất nhiều. Năm 2020 nếu bạn còn nhồi nhét từ khóa vào bài viết của bạn nhiều lần và tạo hàng trăm liên kết không tự nhiên sẽ không gặt hái được phần thưởng là lưu lượng truy cập chất lượng nhiều như ý định. Thậm chí còn dễ rơi vào Black List của Google.
Cố gắng hiểu sự phức tạp trong các thuật toán của Google là một công việc khó khăn, chưa kể đến sau này cũng sẽ còn nhiều bản cập nhật khác. Nhưng có 1 điều không bao giờ thay đổi, đó chính là việc tập trung vào những thứ người dùng quan tâm và Google mong muốn cung cấp chính xác các câu trả lời phù hợp nhất cho cụm từ tìm kiếm của người dùng.
Điều này có nghĩa là người viết cần phải nhất quán đảm bảo rằng họ đang cung cấp nội dung chất lượng, tập trung vào người dùng để hiển thị những kết quả phù hợp nhất mà người dùng thực sự đang tìm kiếm.
Cuối cùng hãy luôn chủ động trước những bản cập nhật của Google. Và đây chính là bí quyết: