Knowledge Graph của Google hoạt động như thế nào?

Knowledge Graph của Google hoạt động như thế nào?
Đánh giá

Knowledge Graph là cơ sở dữ liệu ngữ nghĩa của Google. Đây là nơi các Entity được đặt trong mối quan hệ với nhau, các thuộc tính được gán và được đặt trong bối cảnh(context) theo chủ đề(topic) hoặc một Ontology.

Nhưng Entity là gì? Và Knowledge Graph thực sự hoạt động như thế nào? Tìm câu trả lời cho những câu hỏi này chúng ta cùng xem xét ngữ nghĩa và học máy của Google.

Ngữ nghĩa = Entity + Ontologies (Môi trường của thực thể)

Các yếu tố quan trọng nhất của một cấu trúc ngữ nghĩa cơ bản và các Entity và Ontologies. Trong ngữ nghĩa, một thực thể được mô tả rõ ràng bởi một định danh và đặc biệt là các đặc tính (thuộc tính hoặc tính chất). Trong khi mã định danh (URI), thường bao gồm một chuỗi các số, được sử dụng bởi các máy để xác định thực thể, con người nhận ra các thực thể theo đặc điểm của chúng.

Các thực thể luôn là một phần của Ontology. Ontologies mô tả môi trường mà các thực thể tồn tại bên trong. Điều này có thể được chứng minh bằng cách sử dụng ví dụ về các thực thể sau: Adolf Dassler, Adidas, Reebok và Foot Locker. Adolf Dassler là một doanh nhân và nhà phát minh, và là người sáng lập ra hãng thể thao Adidas:

Reebok là công ty con của Adidas. Nhà bán lẻ đồ thể thao, Foot Locker, là khách hàng của cả Adidas và Reebok, và bán các sản phẩm như Adidas Superstar hoặc Reebok Freestyle:

Để biểu diễn các cấu trúc ngữ nghĩa, rất hữu ích khi sử dụng lý thuyết đồ thị. Lý thuyết này là cơ sở cho Sơ đồ tri thức của Google và Tìm kiếm đồ thị của Facebook.

Đồ thị bao gồm các nút và các cạnh. Khi nhìn vào ngữ nghĩa, các nút đại diện cho các Entity và các cạnh thể hiện mối quan hệ giữa các thực thể. Các mối quan hệ này cũng có thể được gán các giá trị như bối cảnh quan hệ của người khác. Trong ví dụ trên, bối cảnh quan hệ giữa Adolf Dassler và Adidas là người sáng lập ra thành công.

Một biểu đồ chứa tất cả các thực thể có liên quan, bất kể Ontology của chúng. Ngoài việc thể hiện sự tồn tại của mối quan hệ giữa các thực thể, các cạnh cũng có thể được sử dụng để chỉ ra các giá trị của các mối quan hệ này, ví dụ như thông qua chiều dài và độ dày của chúng.

Một cạnh kết nối đặc biệt dày có thể đại diện cho một mối quan hệ mạnh mẽ giữa hai thực thể. Khoảng cách mối quan hệ, được hiển thị bằng chiều dài của cạnh, cũng có thể được sử dụng để thể hiện mức độ chặt chẽ của hai thực thể. Cũng có thể tạo một liên kết đến các không gian vectơ bao gồm khoảng cách Euclidian. Điều này có nghĩa là một cấu trúc đồ thị có thể được tạo ra từ các phương pháp thống kê như phân tích không gian vectơ.

Google coi Entity là gì?

Các Entity đặc biệt quan trọng đối với Hệ thống truy xuất thông tin, vì chúng giúp có thể suy ra thêm thông tin liên quan đến bối cảnh của truy vấn tìm kiếm, câu hoặc văn bản.

Việc xác định rõ ràng các Entity rất quan trọng đối với Google vì nó giúp thực hiện một số nhiệm vụ:

  • Giải thích các truy vấn tìm kiếm
  • Cung cấp sự rõ ràng khi phân tích các thuật ngữ với nhiều ý nghĩa
  • Xác định mối quan hệ giữa các Entity và ý nghĩa của chúng theo các Ontologies hoặc chủ đề
  • Giải thích tài liệu
  • Xác định các thực thể có liên quan trong bối cảnh chuyên đề (thematic context)
  • Về mặt lý thuyết, có một danh sách rộng lớn các loại thực thể có thể, bao gồm:
    • Sách
    • Học viện giáo dục
    • Sự kiện
    • Tổ chức nhà nước
    • Các công ty
    • Phim
    • Truyền hình nhiều tập
    • Ban nhạc
    • Tổ chức
    • Con người
    • Địa điểm
    • Vv…

    Việc xem xét các loại thực thể được liệt kê trên schema.org cho chúng ta một cái nhìn tổng quan hoàn chỉnh về mọi thứ có thể được đánh giá là một Entity. Nó không hoàn toàn đơn giản để đánh giá những gì Google thực sự phân loại là một thực thể và những gì không. Trong một mô tả bằng sáng chế mà Google đề cập đến trong một trong các bằng sáng chế của riêng mình, chúng tôi tìm thấy định nghĩa sau:

    Một Entity được đặt tên là một nhóm gồm một hoặc nhiều từ (một thành phần văn bản) xác định một thực thể theo tên. Ví dụ: các thực thể được đặt tên có thể bao gồm những người (chẳng hạn như tên hoặc vai trò của một người), các tổ chức (như tên của một công ty, tổ chức, hiệp hội, chính phủ hoặc tổ chức tư nhân), địa điểm (locations) (như quốc gia, tiểu bang , thị trấn, khu vực địa lý, tòa nhà được đặt tên hoặc tương tự), các đồ tạo tác (như tên của các sản phẩm tiêu dùng, như ô tô), biểu thức thời gian, chẳng hạn như ngày, sự kiện cụ thể (có thể là quá khứ, hiện tại hoặc sự kiện trong tương lai, chẳng hạn như Thế chiến II; Thế vận hội Olympic 2012) và các biểu thức tiền tệ.

    Trích từ: https://www.google.com/patents/US20100082331

    Có vẻ như Google sẽ hiển thị các thực thể có liên quan trong các ô Sơ đồ tri thức ở bên phải kết quả tìm kiếm. Vì lý do này, tôi thích gọi chúng là Entity Box. Những thứ xuất hiện phía trên kết quả tìm kiếm không phải trả tiền, trong hộp trả lời trực tiếp hoặc dưới dạng đoạn trích nổi bật, có xu hướng là các khái niệm hoặc chủ đề. Các băng chuyền ở đầu trang hiển thị những thứ như sự kiện, phim và chương trình truyền hình.

    Nếu chúng ta xem xét kỹ hơn các Hộp thực thể, thì chúng ta sẽ thấy rằng:

    • People
    • Companies: Các công ty
    • Animals
    • Buildings: Các tòa nhà
    • Thị trấn / địa điểm

    đóng một vai trò quan trọng như các thực thể.

    Khi nói về các thực thể, điều quan trọng là phải phân biệt giữa các Thực thể theo các nguồn thông tin mà chúng đề cập đến: với Google My Business (công ty địa phương), với Google+ (người) hoặc Sơ đồ tri thức (công ty, người, động vật, thị trấn /địa điểm). Thông tin trong Entity Box đề cập đến Doanh My Business hoặc Google+ phần lớn có thể được tạo và kiểm soát bởi chính công ty hoặc cá nhân.

    Google lấy thông tin cho Knowledge Graph từ đâu?

    Google rút thông tin về các thực thể và mối quan hệ của chúng với nhau từ các nguồn sau:

    • CIA World Factbook, Wikipedia / Wikidata (trước đây là Freebase)
    • Google+ và / hoặc Google My Business
    • Dữ liệu có cấu trúc (schema.org)
    • Thu thập dữ liệu trên web (web crawling)
    • Kho tri thức (Knowledge Vault)
    • Dữ liệu được cấp phép

    Nguồn dữ liệu cho Knowledge Graph của Google, © Aufgesang Inbound Marketing 2017

    Sơ đồ tri thứccơ sở dữ liệu ngữ nghĩa của Google. Đây là nơi các thực thể được đặt trong mối quan hệ với nhau và được đặt trong một bối cảnh chủ đề hoặc một Ontology. Sự phát triển của Sơ đồ tri thức của Google dường như được liên kết chặt chẽ với việc mua Freebase: cơ sở dữ liệu tri thức ngữ nghĩa. Tôi muốn xem Freebase như một loại sân chơi thử nghiệm mà Google có thể sử dụng cho bước đột phá đầu tiên để xử lý dữ liệu có cấu trúc.

    Google đã giới thiệu Knowledge Graph vào năm 2012. Ban đầu, nó được điền dữ liệu từ Freebase và Wikipedia. Dự án nguồn mở, Freebase, đã kết thúc vào năm 2014 và được chuyển đổi thành dự án đóng, Wikidata. Để hiển thị Hộp Thực thể, Google kiểm tra xem liệu có mục nhập dữ liệu trong Wikidata hoặc trang trên Wikipedia không.

    Trong một dự án khoa học mà một nhân viên của Google đã tham gia, các thực thể được đánh đồng với các mục Wikipedia.

    Một thực thể (hoặc khái niệm, chủ đề) là một bài viết Wikipedia được xác định duy nhất bởi ID trang của nó .

    Các bài viết trên Wikipedia đóng vai trò nòng cốt như một nguồn thông tin cho nhiều hộp Sơ đồ tri thức. Cùng với các mục Wikidata, Google sử dụng chúng làm bằng chứng về mức độ phù hợp của một thực thể. Không có bài viết Wikipedia và không có Wikidata, không có Thực thể. Tầm quan trọng của Wikipedia trong việc xác định các thực thể và bối cảnh chủ đề của chúng được nghiên cứu trong bài báo khoa học Sử dụng kiến thức bách khoa cho định hướng thực thể được đặt tên .

    Một cách Google có thể xác định mối quan hệ giữa các thực thể có thể bằng cách phân tích các chú thích và liên kết trong Wikipedia.

    Một chú thích là sự liên kết của một đề cập đến một thực thể. Thẻ là chú thích của một văn bản với một thực thể nắm bắt một chủ đề (được đề cập rõ ràng) trong văn bản đầu vào.

    Sự phát triển của sự hiểu biết ngữ nghĩa cho việc giải thích các truy vấn và tài liệu tìm kiếm có liên quan chặt chẽ đến khả năng xác định các thực thể và các mối quan hệ giữa chúng và khả năng đặt chúng trong một bối cảnh hoặc Ontologies. Điều này là có thể với sự trợ giúp của các nguồn dữ liệu được xác minh như Wikipedia.

    Tuy nhiên, khối lượng lớn các truy vấn tìm kiếm và tài liệu được tạo ra mỗi ngày làm cho quá trình này có phần không phù hợp. Đây là một trong những lý do tại sao Google, trong vài năm nay, đã thúc đẩy sự phát triển của các thuật toán tự học và máy học.

    SeoTheTop, Nguồn: searchmetrics