CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY
AI “biết tuốt” nhờ khả năng duyệt web như con người
Công ty khởi nghiệp Diffbot ở ĐH Stanford đang xây dựng một AI có thể đọc mọi trang web trên internet, bằng nhiều ngôn ngữ, và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Hình minh họa mạng lưới dữ kiện

Hồi tháng 7, GPT-3, mô hình ngôn ngữ mới nhất của OpenAI, đã làm cả thế giới ấn tượng với khả năng đưa ra thông tin "như thật", theo cách rất giống với con người.

Chẳng hạn, trong một bảng tính Excel, cột dọc đầu tiên là tên bốn bang của Hoa Kỳ (Illinois, California, Ohio và Alaska), cột thứ hai là dân số và cột cuối cùng là năm thành lập bang. Các ô dân số và năm thành lập của ba bang đầu tiên đã được điền sẵn đáp án, và từ đó GPT-3 phải tự điền vào các ô còn trống về dân số và năm thành lập của bang cuối cùng, Alaska. Mô hình này đã điền 603.000 vào ô dân số và 1906 vào năm thành lập.

Câu trả lời có vẻ rất đúng định dạng, nhưng sự thực là GPT-3 đã trả lời nhảm nhí. Alaska có dân số hơn 730.000 và trở thành một bang vào năm 1959.

Các mô hình ngôn ngữ như GPT-3 có khả năng bắt chước đáng kinh ngạc, nhưng chúng hiểu rất ít về ý nghĩa của câu nói. “Chúng rất giỏi bịa chuyện," Mike Tung, Giám đốc điều hành Diffbot, cho biết. "Nhưng không được đào tạo để đưa ra thông tin thực tế."

Đó là lý do tại sao Diffbot có một cách tiếp cận khác. Họ đang xây dựng một AI có thể đọc mọi trang trên toàn bộ web công cộng, bằng nhiều ngôn ngữ và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Giống như GPT-3, hệ thống của Diffbot học bằng cách thu thập lượng lớn văn bản trực tuyến. Nhưng thay vì sử dụng dữ liệu đó để đào tạo mô hình ngôn ngữ, Diffbot biến những gì nó đọc thành một chuỗi dữ liệu ba phần liên quan với nhau: chủ từ, động từ, vị từ.

 

Ví dụ, nhìn vào tiểu sử của một nhà báo ở MIT, Diffbot biết rằng đây là một nhà báo; anh ta làm việc tại MIT Technology Review; MIT Technology Review là một công ty truyền thông; và cứ thế. Mỗi dữ kiện trong số này được kết hợp với hàng tỷ dữ kiện khác trong một mạng lưới dữ kiện rộng lớn mà Diffbot đã thu thập được. Đây được gọi là biểu đồ tri thức (knowledge graph).

Biểu đồ tri thức không phải là mới. Chúng đã xuất hiện từ nhiều thập kỷ và là một khái niệm cơ bản trong nghiên cứu AI ban đầu. Nhưng việc xây dựng và duy trì các biểu đồ tri thức thường được thực hiện thủ công.

Một vài năm trước, Google cũng bắt đầu sử dụng biểu đồ tri thức. Tìm kiếm “Katy Perry” trên Google, bạn sẽ nhận được một hộp thông tin cho biết Katy Perry là một ca sĩ kiêm nhạc sĩ người Mỹ; nhạc của cô có trên YouTube, Spotify và Deezer. Một vài thông tin vắn tắt mà Google cũng sẽ trích dẫn là cô 35 tuổi, đã kết hôn với Orlando Bloom, và trị giá 125 triệu USD, v.v... Thay vì cung cấp cho bạn danh sách các trang về Katy Perry, Google cung cấp cho bạn một tập hợp các dữ kiện về cô được rút ra từ biểu đồ tri thức của nó.

Nhưng Google chỉ đưa ra thông tin dạng này cho các cụm từ tìm kiếm phổ biến nhất. Diffbot muốn đưa ra thông tin cho mọi thứ. Bằng cách tự động hóa hoàn toàn quá trình xây dựng, Diffbot muốn xây dựng một biểu đồ tri thức lớn nhất từ trước đến nay.

Cùng với Google và Microsoft, đây là một trong ba công ty Hoa Kỳ lục lọi mọi trang web công cộng. “Tự động hóa là cách duy nhất để xây dựng biểu đồ tri thức quy mô lớn," Heiko Paulheim tại Đại học Mannheim ở Đức, nói.

Đọc web như con người

Để thu thập dữ kiện, AI của Diffbot cũng đọc web như con người nhưng nhanh hơn nhiều. Sử dụng một phiên bản đặc biệt của trình duyệt Chrome, AI này xem các pixel thô của trang web và sử dụng thuật toán nhận dạng hình ảnh để phân loại trang thành một trong 20 loại khác nhau - bao gồm video, hình ảnh, bài viết, sự kiện và chuỗi thảo luận, v.v... Sau đó, nó xác định các yếu tố chính trên trang, chẳng hạn như dòng tiêu đề, tác giả, mô tả sản phẩm hoặc giá cả và trích xuất dữ kiện.

 

Mỗi dữ kiện khi đã đủ ba phần (chủ từ, động từ, vị từ) sẽ được thêm vào biểu đồ tri thức. Diffbot trích xuất dữ kiện từ các trang được viết bằng bất kỳ ngôn ngữ nào, có nghĩa là nó có thể trả lời các truy vấn về Katy Perry, chẳng hạn, bằng cách sử dụng dữ kiện lấy từ các bài báo bằng tiếng Trung hoặc tiếng Ả Rập, ngay cả khi chúng không chứa chính xác cụm từ “Katy Perry”.

Khả năng duyệt web như một con người cho phép AI nhìn thấy những dữ kiện giống như chúng ta thấy. Cũng có nghĩa là nó phải học cách điều hướng trên web giống như chúng ta. AI phải cuộn xuống, chuyển đổi giữa các tab và nhấp vào cửa sổ. “Nó phải lướt web như một trò chơi điện tử để trải nghiệm các trang," Tung nói.

Diffbot thu thập dữ liệu web không ngừng và xây dựng lại biểu đồ tri thức của nó sau mỗi bốn đến năm ngày. Theo Tung, AI sẽ bổ sung từ 100 triệu đến 150 triệu thực thể vào biểu đồ mỗi tháng khi có những nhân vật mới, sản phẩm mới xuất hiện. Nó sử dụng nhiều thuật toán học máy để kết hợp các dữ kiện mới với các dữ kiện cũ, tạo ra các mối liên quan mới hoặc ghi đè lên các dữ kiện lỗi thời. Để làm được điều này, Diffbot cũng phải liên tục nâng cấp trung tâm dữ liệu của mình khi biểu đồ tri thức ngày càng lớn.

Các nhà nghiên cứu có thể truy cập miễn phí biểu đồ tri thức của Diffbot. Nhưng Diffbot cũng có khoảng 400 khách hàng trả tiền. Công cụ tìm kiếm DuckDuckGo sử dụng Diffbot để tạo các hộp giống như Google. Snapchat sử dụng nó để trích xuất các tin nổi bật từ các trang tin tức. Ứng dụng tổ chức đám cưới phổ biến Zola sử dụng nó để giúp mọi người lập danh sách đám cưới, thu thập hình ảnh và giá cả. NASDAQ sử dụng nó để nghiên cứu tài chính.

Adidas và Nike thậm chí còn sử dụng Diffbot để tìm kiếm giày giả trên internet. Công cụ tìm kiếm thông thường sẽ trả về một danh sách dài các trang web nói về giày của họ, nhưng Diffbot cho phép tìm kiếm các trang web thực sự bán giày của các hãng này.

Hiện tại, các công ty nói trên đang tương tác với Diffbot bằng ngôn ngữ lập trình. Nhưng Tung dự định thêm giao diện ngôn ngữ tự nhiên cho Diffbot. Cuối cùng, anh muốn xây dựng cái mà anh gọi là “hệ thống trả lời câu hỏi dạng thực tế phổ quát”: một AI có thể trả lời hầu hết mọi thứ bạn hỏi, với các nguồn thông tin chính xác đằng sau câu trả lời của nó.

Hai nhà sáng lập của Diffbot đồng ý rằng không thể xây dựng được AI như vậy nếu chỉ dựa trên các mô hình ngôn ngữ, như GPT-3, mà cần kết hợp thêm với một mô hình có thông tin/ dữ kiện thực tế, như Diffbot. Mô hình ngôn ngữ tự nhiên như GPT-3 sẽ là giao diện giao tiếp với người dùng, và đằng sau là một AI "biết tuốt".

Tuy nhiên, một AI cung cấp thông tin chính xác không nhất thiết phải là một AI "thông minh". Tung nói: “Chúng tôi không cố định nghĩa trí thông minh là gì hay bất cứ thứ gì tương tự. Chúng tôi chỉ đang cố gắng tạo ra thứ gì đó hữu ích.”

Hoàng Nam tổng hợp

www.khoahocphattrien.vn (ctngoc)
Most viewed news

Enhancing teaching and learning capacity through artificial intelligence

In the morning of May 30 in Hanoi, the United Nations Children's Fund (UNICEF), the Ministry of Education and Training, the National Innovation Center (NIC) and STEAM for Vietnam held a National Forum on Artificial Intelligence in Education, with the theme "Promoting innovation: Enhancing teaching and learning capacity through AI".

Hai Phong promoted connection between technology supply and demand

In the morning of May 30, Hai Phong Department of Science and Technology organized a session connecting technology supply and demand among research institutions and businesses inside and outside the city.

Building AI human resources

Ho Chi Minh City is actively promoting digital transformation and applying artificial intelligence (AI) to build a smart city. However, the city's AI human resources are still limited in quantity and quality, with only about 1,000 graduates from 14 related training programs.

Applying AI to solve administrative procedures

The implementation of Hanoi's Public Administration Service Center aims to transform the management model to non-administrative boundaries by establishing branches in large districts.

Developing Thoi Hung custard apple brand, Co Do district, Can Tho city

Can Tho City Department of Science and Technology organized a Mid-term Evaluation Council for the science and technology task of developing the Thoi Hung Soursop Brand, Co Do District, Can Tho City. The Council was presided by Dr. Ngo Anh Tin - Director of the Department of Science and Technology. The study was carried by Nguyen Khac Phi - Branch of Investip Industrial Property Joint Stock Company (Hanoi City), and Tran Thi Thien Thu - Can Tho City Farmers' Association.

Current status and solutions for developing smart tourism systems to attract tourists to Can Tho city - Strategic direction for tourism industry in the digital age

In the afternoon of June 5, 2025, Can Tho City Department of Science and Technology held a meeting of the City-level Council for the acceptance evaluation of the social science project "Current status and solutions for developing a smart tourism system to attract tourists to Can Tho City". Dr. Ngo Anh Tin - Director of Can Tho City Department of Science and Technology was the Chairman of the Council. The project was carried out by Prof. Dr. Ha Nam Khanh Giao; Vietnam Aviation Academy was an implementing unit.

Conference to discuss the organizational arrangement of the Department of Science and Technology when merging Can Tho City, Soc Trang Province, and Hau Giang Province

In the afternoon of May 29, 2025, leaders of Departments of Science and Technology of Can Tho City and Hau Giang and Soc Trang provinces had a meeting to discuss plans to rearrange and reorganize the apparatus of the Department of Science and Technology after merging and consolidating the areas of these three localities.

Selection of scientific and technological project "Research on microbial preparations to decompose starch or food additives sodium benzoate in wastewater"

In the morning of May 29, 2025, Can Tho City Department of Science and Technology held a meeting of the Council for selecting organizations and individuals to preside over the city-level science and technology project "Research on microbial preparations to decompose starch or food additives sodium benzoate in wastewater.” The study will be carried by Dr. Nguyen Thi Phi Oanh. Can Tho University is an implementing agency.

Evaluation and acceptance of the scientific and technological project "Research on diversifying processed products from jackfruit (Artocarpus heterophyllus LAM)"

In the afternoon of May 27, 2025, Can Tho City Department of Science and Technology held a meeting of the Advisory Council to evaluate and accept the results of the implementation of the scientific and technological project "Research on diversifying processed products from jackfruit (Artocarpus heterophyllus Lam)." The project was carried out by Associate Professor, Dr. Bach Long Giang. Nguyen Tat Thanh University was an implementing agency; Science and Technology Advances Application Center, Vietnam - Korea Industrial Technology Incubator were coordinating units.

Related news
CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY

Copyright @ 2021 belongs to the Can Tho City Department of Science and Technology
Address: No. 02, Ly Thuong Kiet, Tan An Ward, Ninh Kieu District, Can Tho City
Phone: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Head of the Editorial Board: Mr. Tran Dong Phuong An - Deputy Director of the
Can Tho City Department of Science and Technology

Copyright © 2021 All rights reserved | This template is made by CASTI'1987