12.8 C
Japan
土曜日, 3月 25, 2023

AI開発スタートアップのrinna社が、日本語に特化したGPT-2の大規模言語モデルをオープンソース化!

マイクロソフトのAI&リサーチ部門のAIキャラクター事業(XiaoIce)事業を分離して設立されたスタートアップの「rinna株式会社」は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。GitHubとHuggingFaceで言語モデルとトレーニングコードを公開しています。

オープンソース化の背景

rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。

ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。

これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています。 

このたび、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築しました。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開します。 

日本語GPT-2モデルの機能とは

言語モデルは、言語データの機械学習をもとに、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したものです。優れた言語モデルとは確率を正確に推定できるものを指します。例えば、 “確率(吾輩は猫である)>確率(吾輩が猫である)” と推定できるのが、言語モデルの能力です 

 GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)です。例えば、 “確率(吾輩は猫である) = 確率(吾輩) x 確率(は|吾輩) x 確率(猫|吾輩,は) x 確率(で|吾輩,は,猫) x 確率(ある|吾輩,は,猫,で)” のような方法で推定を行います。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できます。 

今回、rinna社が公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できます。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能です。  

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成(※1)するように、微調整できます。 

【デモ1】講演の感想のコンテキストで文章生成

【デモ2】書籍の紹介のコンテキストで文章生成

(※1)上記のデモでは生成する文章の文字数上限を設定しており、実際に生成される全文ではありません。 

rinna社の日本語GPT-2モデルの特徴 

rinna社の日本語GPT-2モデルは、以下の特徴があります。 

  • トレーニングデータとして、CC-100(http://data.statmt.org/cc-100/)のオープンソースデータを使用しています。 
  • Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしました。その結果、このモデルの性能は約18 perplexity (※2)を達成しました。モデルは十分にトレーニングされており、汎用性があると言えます。 
  • ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開しています。また、研究者が自分のマシンで当社の結果を再現できるように、トレーニングコードをGitHubに公開しています。 
  • 今回公開したのは、GPT2-mediumと定義される中規模サイズのモデルです。今後、パフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定です。また、異なるデータでトレーニングした新しいモデルの公開も計画しています。 
    (※2)18 perplexityは、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残すことができる性能を意味します。 

今後の展開 

rinna社の研究チームが開発している大規模な言語モデルは、すでに当社のプロダクトに広く使用されています。当社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めていきます。また、日本語の研究コミュニティのために、これらのモデルをオープンソース化していきます。 

【会社概要】 

社名:rinna株式会社 
所在地:東京都渋谷区渋谷2-24-12 渋谷スクランブルスクウェア39F WeWork 
設立年月日:2020年6月17日 
代表取締役:ジャン“クリフ”チェン 
Webサイト:https://corp.rinna.co.jp/ 
業務内容:AIサービスの研究・企画・開発・運営・販売 

Facebook コメント
PORT編集部https://port.creww.me/
PORT by Crewwは、Creww株式会社が運営する、社会課題をテーマに、新規ビジネス創出を目指すスタートアップ、起業家、復業家、 企業をつなぐ挑戦者のためのオープンイノベーションメディアです。
- Advertisment -
- Advertisment -

Featured

【SceneryScent × アネスト岩田】“香り噴霧器”で新たな価値と市場を生み出す

【Creww Growth活用協業事例インタビュー】日本の塗装機器や空気圧縮機の業界を95年以上リードし続けているアネスト岩田。“開発型企業”として国内外で1,200件を超える特許出願数を持ち、世界20カ国以上の拠点、35社のグループ会社を持つ企業だ。 同社は2020年に導入したアクセラレータープログラムで、香り空間演出・プロデュース事業を展開するスタートアップSceneryScent社(シーナリーセント)を採択し、わずか1年半で、人感センサー内蔵香り演出機器「Ambiscent(アンビセント)」のデモ機を開発。社外でのトライアルがスタートした。 具体的にどのような取り組みを重ねているのか。アネスト岩田の和泉孝明氏と、SceneryScent代表の郡香苗氏にお話を伺った。 #アネスト岩田 #SceneryScent #シーナリーセント #Ambiscent #アンビセント #スタートアップ #オープンイノベーション #活用協業事例インタビュー #CrewwGrowth #Creww #大挑戦時代をつくる

【熊平製作所 × MAMORIO】創業125年のトータルセキュリティ企業が、スタートアップ共創で未来の「安心・安全」を創る

【Creww Growth活用協業事例インタビュー】広島銀行とCrewwは、広島県下のイノベーションエコシステムの構築に向け、広島県内に新たな事業の創出を図ることを目的に「HIROSHIMA OPEN ACCELERATOR 2021(広島オープンアクセラレーター2021)」を共催しました。本記事では、プログラム参加企業である熊平製作所と、「なくすを、なくす」をミッションに、紛失防止デバイス「MAMORIO」を始めとした 様々な製品・サービスを提供するIoTスタートアップ「MAMORIO」との共創プロジェクトにフォーカス。株式会社熊平製作所 新規事業開発部 取締役部長 茶之原 氏に、プロジェクトの共創に至った背景や、スタートアップとの共創から実際に得た体感や変化について、お話を伺いました。 #広島銀行 #広島県 #イノベーション #広島オープンアクセラレーター2021 #熊平製作所 #MAMORIO #IoT #スタートアップ #共創 #新規事業 #協業事例インタビュー #CrewwGrowth #Creww #大挑戦時代をつくる

関東近郊2万坪の土地 × スタートアップで、今までにない斬新な “場” を作りたい|Gulliverが挑む!

【オープンイノベーションインタビュー】中古車売買でお馴染みの「Gulliver」を運営する株式会社IDOMが、2022年10月24日から「Gulliver アクセラレータープログラム2022」を実施。新しい購買体験の提供と、生活を彩るクルマの価値を創造する新しいコンセプト店舗の開発をテーマに、関東近郊に2万坪の土地を用意し、スタートアップの皆さんと一緒に新しい場づくりに取り組みたいという。具体的に、どのような構想を描いているのか。株式会社IDOMの経営戦略室チームリーダー、三樹教生氏に話を伺った。 #Gulliver #IDOM #スタートアップ #アクセラレータープログラム #CrewwGrowth #Creww #大挑戦時代をつくる

スタートアップ募集!【豊富な開発技術力 × デミング賞大賞の社内風土】モノづくりメーカーのOTICSに、今求めるパートナーを聞く

【オープンイノベーションインタビュー】高出力・低燃費・低エミッション化などの要求に対し、積極的な技術提案と高精度な品質で応えるOTICS(オティックス)の自動車部品は、多くの車種で採用されています。一方で、120以上の国と地域が目標に掲げる「2050年カーボンニュートラル」に向け「脱炭素化」の企業経営に取り組むOTICSは、初めてのアクセラレータープログラムを開催。豊富な開発経験と生産技術力を活かせる協業案、自然環境保全や社会・地域に貢献できるアイデア等をスタートアップから広く募集します。デミング賞大賞も受賞したOTICSの社風、アクセラレータープログラムの開催に至った背景や、募集ページだけでは伝わらない魅力、プログラムに関わる方々の想いを、株式会社オティックス 経営管理本部TQM経営戦略室 係長 奥村守氏に話を伺いました。 #OTICS #自動車 #カーボンニュートラル #アクセラレータープログラム #協業 #スタートアップ #デミング賞 #CrewwGrowth #Creww #大挑戦時代をつくる
Facebook コメント