no title
1: 名無しさん@おーぷん 21/10/24(日)00:50:03 ID:WGAX
2日前までは普通に動いてたのが、急にGPUのメモリエラー吐くようになった
このまま動かないとめちゃくちゃやばいンゴ…
思い当たる対処法を教えてクレメンス


2: 名無しさん@おーぷん 21/10/24(日)00:50:49 ID:9Q3j
データ量増えたんちゃう?

4: 名無しさん@おーぷん 21/10/24(日)00:51:28 ID:WGAX
>>2
いや、それはないンゴ
教師データもテストデータも増やしてないし、プログラムも書き換えてない

8: 名無しさん@おーぷん 21/10/24(日)00:53:21 ID:WGAX
あかんガチで動かなくなってきた
もうこの際新しいGPUが欲しいンゴ

9: 名無しさん@おーぷん 21/10/24(日)00:53:52 ID:n2jn
一応確認なんやがGPUで別の処理回してるとかないか?
GPUの動作状況確認したか?
以前のプロセスが止まらず動き続けてるとかもなくはないで

12: 名無しさん@おーぷん 21/10/24(日)00:56:01 ID:WGAX
>>9
それはないと思うで、PCの再起動してから実行してるし
でも一応確認の仕方を聞いてもええか?
タスクマネージャーで見られるんかな

14: 名無しさん@おーぷん 21/10/24(日)00:58:03 ID:n2jn
>>12
NVIDIA製のgpuならnvidia-smiってコマンドで調べられるで

15: 名無しさん@おーぷん 21/10/24(日)00:58:25 ID:WGAX
>>14
サンガツ!見てみるで

18: 名無しさん@おーぷん 21/10/24(日)01:01:35 ID:WGAX
見方が…分から…ない…

22: 名無しさん@おーぷん 21/10/24(日)01:04:46 ID:9Q3j
古いOSじゃなければタスクマネージャでもGPUのパフォーマンス見れたはずやが

24: 名無しさん@おーぷん 21/10/24(日)01:06:54 ID:WGAX
>>22
タスクマネージャーで見る限りはメモリは使用されてないっぽいんや
GPU全体のメモリが足りなくて、学習に必要な分を学習前に確保できてないって感じなんや

10: 名無しさん@おーぷん 21/10/24(日)00:53:58 ID:9Q3j
GPU側でメモリ解放しきれてないんかな
どうやって実行しとるんや

13: 名無しさん@おーぷん 21/10/24(日)00:56:35 ID:WGAX
>>10
anaconda仮想環境でtensorflow使ってて、コマンドプロンプトから実行してるで

16: 名無しさん@おーぷん 21/10/24(日)00:58:59 ID:3HSm
再起動や‼︎

17: 名無しさん@おーぷん 21/10/24(日)00:59:34 ID:WGAX
>>16
それは何度もしてるんやで~!!!

3: 名無しさん@おーぷん 21/10/24(日)00:51:16 ID:Nmhv
バッチサイズとかどうや

6: 名無しさん@おーぷん 21/10/24(日)00:51:53 ID:WGAX
>>3
バッチサイズは動かなくなったからむしろ減らしたんや…
それでも動かなくなってきた

7: 名無しさん@おーぷん 21/10/24(日)00:53:05 ID:Nmhv
>>6
学習回数減らすとかしかなくないか?
流石にこれ以上下げれんやろ

11: 名無しさん@おーぷん 21/10/24(日)00:55:06 ID:WGAX
>>7
なんだかモデル作成の時に学習時に必要なメモリを確保してるから、学習回数を減らす意味はないと思われる

19: 名無しさん@おーぷん 21/10/24(日)01:01:53 ID:Nmhv
>>11
そうなんやな
必要なメモリ確保してるのにメモリエラーが出るのはメモリ不足じゃないと思うんやがどういう内容のエラーなんや?

21: 名無しさん@おーぷん 21/10/24(日)01:04:05 ID:WGAX
>>19
最初に学習に必要なメモリの確保が行われるんや
その際に、メモリが足りないから性能下がるよ、みたいなエラーが出る
その後、tensorflow特有の、メモリが足りない時に完全に動作を停止するエラーが出てくるんや

27: 名無しさん@おーぷん 21/10/24(日)01:10:27 ID:Nmhv
>>21
はぇー、さんかつや
>>20
でいけることを願ってるで

28: 名無しさん@おーぷん 21/10/24(日)01:12:07 ID:WGAX
>>27
tensor flow特有のエラーはメモリのアドレスとかがズラーっと出てきてワイもよくわからんわ
応援サンガツやで

20: 名無しさん@おーぷん 21/10/24(日)01:04:03 ID:L2q4
tensorflow読み込む前に
import os
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'
って書いてる?

23: 名無しさん@おーぷん 21/10/24(日)01:05:46 ID:WGAX
>>20
似たような感じなんやけど、["CUDA_VISIBLE_DEVICES"]="0"
なら書いてあったで

25: 名無しさん@おーぷん 21/10/24(日)01:07:09 ID:L2q4
>>23

>>20のコードを最初に書いてもう一回実行してみて
ワイはこれでGPUがメモリ必要以上に使ってエラーすることなくなった

26: 名無しさん@おーぷん 21/10/24(日)01:07:32 ID:WGAX
>>25
サンガツ!やってみるで

29: 名無しさん@おーぷん 21/10/24(日)01:14:40 ID:WGAX
あかーん!
やっぱりCUDAの時と同じで訳分からんエラーが出るンゴ…

30: 名無しさん@おーぷん 21/10/24(日)01:15:39 ID:WGAX
もうこれは諦めるわ
付き合ってくれたニキたちサンガツやで

31: 名無しさん@おーぷん 21/10/24(日)01:16:04 ID:L2q4
あかんかったかー・・・ワイも力になれそうにないわ
model.fitで最初のepochの学習が始まる前にエラー出るんだよね?

33: 名無しさん@おーぷん 21/10/24(日)01:16:30 ID:WGAX
>>31
すまん、model.fitってなんや?

34: 名無しさん@おーぷん 21/10/24(日)01:17:23 ID:WGAX
>>33
Keras特有のそういうやつがあるんやね
ワイはKeras使ってないから知らんかったわ

37: 名無しさん@おーぷん 21/10/24(日)01:18:09 ID:WGAX
>>34
いや、Keras特有ではないっぽいな
ワイはtensorflowのバージョンが古いから知らんかっただけか

35: 名無しさん@おーぷん 21/10/24(日)01:17:46 ID:L2q4
>>33
ワイはkerasのしか見たことないから違うかもだけど
model.compile(なんとかかんとか)
したあと
model.fit(train_x,train_y,validation=(test_x,test_y))
的なこと書いて学習してる

ワイはmodel.fitの時のメモリエラーに結構悩まされた経験あって・・・

38: 名無しさん@おーぷん 21/10/24(日)01:18:55 ID:WGAX
>>35
バージョンが古いから知らない関数だったみたいンゴ
来週にでもバージョンはあげたいと思っとる

32: 名無しさん@おーぷん 21/10/24(日)01:16:04 ID:9Q3j
頑張ってな

36: 名無しさん@おーぷん 21/10/24(日)01:17:49 ID:9Q3j
2日前まで動いてたって何なんやろな
ソースコードはいじってなくてもtensorflowのバージョンアップとか
設定いじったりもしてないんか?

39: 名無しさん@おーぷん 21/10/24(日)01:19:36 ID:WGAX
>>36
バージョンアップはしたけど、仮想環境分けて試して、今は古い環境でやってるから大丈夫なはずなんやがなぁ…

40: 名無しさん@おーぷん 21/10/24(日)01:21:31 ID:WGAX
しゃーない、未だメモリ足りないから性能落ちるでのエラーは出るが、極限までバッチサイズ少なくすれば動くことには動くからそれで我慢するで

45: 名無しさん@おーぷん 21/10/24(日)01:28:28 ID:Nmhv
>>40
わいもGPUのメモリエラー起きて最終的にはバッチサイズ小さくしたンゴ
ホンマ鬱陶しいし、進まんのだるいよな

41: 名無しさん@おーぷん 21/10/24(日)01:21:44 ID:9Q3j
念のため実行されてるtensorflowのバージョンくらい表示してみてもええかもな
後は正直ワイにはわからんわ

42: 名無しさん@おーぷん 21/10/24(日)01:22:04 ID:WGAX
>>41
了解や、遅くまでありがとうな

43: 名無しさん@おーぷん 21/10/24(日)01:23:33 ID:L2q4
GPUのメモリのせいで制限されるのうっとおしいよな

44: 名無しさん@おーぷん 21/10/24(日)01:24:44 ID:WGAX
>>43
本当にそうや…
ワイは研究室で研究してる身やから、勝手にGPU変えられないし、そもそも金ないしで辛いンゴ…

46: 名無しさん@おーぷん 21/10/24(日)01:39:16 ID:WGAX
急に動くようになった、怖い…
ともかく、付き合ってくれたニキらには感謝やで

引用元: ・深層学習に自信ニキ助けてクレメンス!