インターネット上などにあるデータを利用して学習用データセットを生成する場合の問題です。
AIと著作権 学習用データセットの生成
機械学習を利用して学習済みモデルを作成する場合、上記のようにデータ(生データ)を収集し、収集した生データからデータベースが生成されます。生データについてデータ処理が施され、学習用データセットが生成されます。生成された学習用データセットについて機械学習が行われ学習済みモデルが得られます。
AIと著作権 複製権侵害 翻案権侵害
このような場合、生データを収集してデータベースに格納する行為は複製権侵害に該当する恐れがあり、学習用データセットの生成などは翻案権侵害に該当する恐れがあります。
しかしながら、現在の著作権法では、次の著作権法第47条の7の規定により「情報解析」が目的であれば、非営利目的であっても複製、解析ができるようになっています。
但し、著作権法第47条の7の規定では許容されている行為が「記録媒体への記録・翻案」のみですので、学習用データセットのは販売は禁止されることとなります。
ここで登場するのが著作権法第30条の4第2号で、「情報解析の用に供する場合、著作権者の利益を不当に害することとならなければ、いずれの方法によるかを問わず、著作物を利用できる、とされています。
従いまして、学習用データセットの販売を行う場合、著作権法第47条の4ではNGとなりますが、著作権法第30条の4によるとOKということになります。
AIと著作権 注意事項
注意しなければならないのは、あくまで日本の法律だということです。日本の著作権法が適用されれば学習用データセットの販売は侵害とはなりませんが、学習用データセットの販売が侵害となるような国の著作権法が適用される場合には、やはり侵害となってしまいます。結局、外国に置かれているサーバから生データを収集し、学習用データセットを販売する場合には外国の著作権法が適用される可能性が高く、著作権侵害に問われる恐れがあります。
(弁理士 井上 正)