这是刚做完的一小段代码,经测试已经无误,呵呵,这里share给大家看看,有朋友觉得有用,可以拿去用。
已知一件事物有几种状态,每种状态出现的概率不一样,要求做一个随机数产生器,返回状态值,要求状态值出现的规律,符合输入的概率。
这是小弟上午问我的问题,我们正在做一个工业测试模型,实际的例子是,根据实际情况,某种设备返回的状态概率符合下表:
设备状态 | 百分比 |
1 | 12% |
2 | 40% |
3 | 40% |
4 | 7% |
5 | 1% |
我下午上班想了一下,花了半个小时为他写了一个随机数产生器,经测试,0bug,呵呵。他现在正在用。
- #define CTonyRandomArea_TOKEN_MAX 100 //最大类型数
- #define CTonyRandomArea_TOKEN_AREA_MAX 10000 //类型数组单元数,精确到小数点后两位
-
-
-
-
-
- class CTonyRandomArea
- {
- public:
- CTonyRandomArea(double* pTokenPercentArray,char cTokenCount)
- {
- m_nTokenCount=cTokenCount;
- if(CTonyRandomArea_TOKEN_MAX<m_nTokenCount)
- m_nTokenCount=CTonyRandomArea_TOKEN_MAX;
- int i=0;
- for(i=0;i<m_nTokenCount;i++)
- {
- m_dTokenPercentArray[i]=*(pTokenPercentArray+i);
- }
-
-
-
- double dNumberCount=0;
- for(i=0;i<m_nTokenCount;i++)
- {
- dNumberCount+=m_dTokenPercentArray[i];
- }
- if(100.0!=dNumberCount)
- {
- for(i=0;i<m_nTokenCount;i++)
- {
- m_dTokenPercentArray[i]/=dNumberCount;
- m_dTokenPercentArray[i]*=100;
- }
- }
-
- for(i=0;i<m_nTokenCount;i++)
- {
- m_sTokenPercentArray[i]=(short)(m_dTokenPercentArray[i]*100);
- }
-
-
- int j=0;
- int nFillMin=0;
- int nFillMax=0;
- for(i=0;i<m_nTokenCount;i++)
- {
- m_cTokenPercentArrayAreaUp[i]=-1;
- }
-
- for(i=0;i<m_nTokenCount;i++)
- {
- nFillMax=nFillMin+m_sTokenPercentArray[i];
- for(j=nFillMin;j<nFillMax;j++)
- {
- m_cTokenPercentArrayAreaUp[j]=i;
- }
- nFillMin=nFillMax;
- }
-
- }
- ~CTonyRandomArea(){}
- void PrintfInfo(void)
- {
- int i=0;
- double dNumberCount=0;
- for(i=0;i<m_nTokenCount;i++)
- {
- dNumberCount+=m_dTokenPercentArray[i];
- printf("%d = %f\n",i,m_dTokenPercentArray[i]);
- }
- printf("All = %f\n",dNumberCount);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- }
-
-
- char GetType(int nTypeIndex)
- {
- if(10000<=nTypeIndex) nTypeIndex=9999;
- if(0>nTypeIndex) nTypeIndex=0;
- return m_cTokenPercentArrayAreaUp[nTypeIndex];
- }
-
- char GetRandomType(void)
- {
- return GetType(GetRandomBetween(0,10000));
- }
- private:
- double m_dTokenPercentArray[CTonyRandomArea_TOKEN_MAX];
- short m_sTokenPercentArray[CTonyRandomArea_TOKEN_MAX];
- char m_nTokenCount;
- char m_cTokenPercentArrayAreaUp[CTonyRandomArea_TOKEN_AREA_MAX];
- };
-
- void TestCTonyRandomArea(void)
- {
- double dTokenPercentArray[100];
-
- dTokenPercentArray[0]=12.0;
- dTokenPercentArray[1]=40.0;
- dTokenPercentArray[2]=40.0;
- dTokenPercentArray[3]=7.0;
- dTokenPercentArray[4]=1.0;
-
- CTonyRandomArea Area1(dTokenPercentArray,5);
- Area1.PrintfInfo();
-
- int i=0;
- for(i=0;i<20;i++)
- {
- printf("RandType = %d\n",Area1.GetRandomType());
- }
- }
1、我先从外部导入一个比例列表,在100以内的数组单元,每个单元里面放置一个double值,相当于对应类别的比例。这样,我预设最大有100种状态,具体本次试验有多少种状态,即100个状态比例数组多少个单元是有效的,看构造函数的第二个参数,就是这个参数输入的。
2、这里面我做了点人性化考虑,因为很多时候,我们测试的设备状态是直接的采样值,即每种状态出现了多少次,懒得计算成百分比,因此,我内部自动帮他重新计算一遍百分比。这样用起来很方便。
3、我根据各种类型的比例,内部准备一个10000个单元的大数组,我根据每种状态的比例,在这个数组中填充足够的状态数,这样,构建了一个比例分配表。这实际上是把计算精度放大到小数点后两位,即99.99%这种精度
4、我真正提供随机数的函数,是在0~10000中取值,即随机命中比例分配表的某个单元,这个单元取出来是哪种状态,就返回哪种状态。由于比例分配表决定了各种状态被命中的比例,因此,我返回值是符合出现比例的。
5、最后我给了一个测试函数TestCTonyRandomArea,这是我团队的规矩,任何人写一个模块,必须同时提供相应的白盒测试函数,并将测试结果展示给使用者看,作为验收标准,即“你必须自己证明自己的工作是有效的,并接受检验”,我这个leader也不能例外。
6、PrintfInfo函数也是我团队的规矩,位于底层的类,有责任提供一个PrintInfo函数,供调用者随时查阅你的内部数据,“把你的数据暴露给大家看,想出来混江湖,就不怕裸奔被人看!”,呵呵《0bug-C/C++商用工程之道》里面很多类都有这个函数的。
嗯,中间有个GetRandomBetween这个函数,就是《0bug-C/C++商用工程之道》这本书P199页的源代码,这里我也给一份Copy,另外,其工作原理,有兴趣的读者可以看看书中的描述。
- inline int _GetNot0(void)
- {
- int nRet=rand();
- if(!nRet) nRet++;
- return nRet;
- }
- inline int GetRandomBetween(int nBegin,int nEnd)
- {
- int n=_GetNot0();
- int nBetween=0;
- if(0>nBegin) nBegin=-nBegin;
- if(0>nEnd) nEnd=-nEnd;
- if(nBegin>nEnd)
- {
- nBetween=nEnd;
- nEnd=nBegin;
- nBegin=nBetween;
- }
- else if(nBegin==nEnd)
- nEnd=nBegin+10;
- nBetween=nEnd-nBegin;
- n=n%nBetween;
- n+=nBegin;
- return n;
- }
上述代码是我匆忙写的,属于测试用代码,不完全符合0bug一书里面的C/C++无错化程序设计原则,各位读者请注意哈。
不过,虽然是测试代码,但是带了很多工程型代码的影子,大家有兴趣可以看看。
另外,上述代码没有做锁封装,但是,仍然是多线程安全的。大家有注意到没有?
因为其工作原理是查表法,所有的表构造时一次生成,以后仅仅是纯读,请《0bug-C/C++商用工程之道》的读者注意2.3.6节,P50页的论述,“用锁的最高境界--不用”,这里符合第1条特例,“针对一个资源的所有操作都是读的时候,可以不加锁”。我这段代码可以算作实例了。各位读者可以参考一下。
嗯,有人可能说,这里的随机数产生器没有使用srand初始化,记住,我在用我自己的工程库,也就是《0bug-C/C++商用工程之道》的工程库,工程库的init动作里面已经做过这种动作了。
代码是VS2008下测试的,不过,我的理解,应该是跨平台的。
比如说,某个NPC哨兵,他可能在某个时刻,看前后左右,或者抽烟,或者睡觉,或者和另一个哨兵聊天,这时候,可以用这个随机数产生器,根据预设的每种动作的概率,权重,随时求出他的行为种类,并予以展示。
再或者,暗黑里面,我们使用暗金的装备,每次攻击,有百分之多少的概率出现压碎性打击,有多少概率出现冰冻属性,等等,也可以用这个随机数产生器来求。
嗯,这里网友发现一处bug,我已经修改了,请昨天看过的朋友注意:
- if(100.0!=dNumberCount)
- {
- for(i=0;i<m_nTokenCount;i++)
- {
- m_dTokenPercentArray[i]/=dNumberCount;
- m_dTokenPercentArray[i]*=100;
- }
- }
这段代码出来后,一些网友表示看不懂我的原意,我们在CSDN博客有一些问答,我觉得对大家理解本程序的设计思路有帮助,因此,整理了一下,摘录在这里:
网友问:if(100.0!=dNumberCount) 浮点数直接用等于作比较是不正确的我答:通常的做法是if((100.0-dNumberCount)<0.00000001),我知道的,不过,我为什么这么写,你看得懂吗?
网友问:不懂,老师教教吧,谢谢我答:这里主要的目的是否定,是为了验证所有输入的double数加起来不是100.0,然后内部重新计算一次。由于外部人员输入,通常都不是正好100.0,因此,这里使用否定的严厉校验,即只要不是绝对==100.0,内部就重新计算。看好了,我是否定严厉,不是肯定严厉,因此不用教科书做法。
网友问:同意这样直接比较在此处也不会产生错误,我还是有如下观点: 1. 这样严厉的否定可能会拒绝一些本可以接受的输入,当然概率比较小,而且即使拒绝了也顶多是多计算一下,不会有bug 2. 即使是通过代码中的“自动调整其比例“的计算以后,仍然有可能会出发您的”否定严厉“ 所以我认为还是不应该用直接比较。 3. (100.0-dNumberCount)<0.00000001 这样的比较还是不合适的,一是要用绝对值,当然这里可能是您忘记写了;二是0.00000001的取定要推敲,用float.h中提供的常数宏更好我答:嗯,你说的有理,我下回注意,呵呵。不过,你说的计算后仍然有否定严厉误差的问题,看我61行,我写那行代码的目的就是为了弥补这个误差的。不过后来看了没有误差,所以就隐掉了。
网友问:不是我挑错,但我总觉的你的代码显的很长。好多没必要。比如 GetRandomBetween函数,其实很简单。 GetRandomBetween(int nBegin,int nEnd) { int n = abs(nBegin); int nBetween= abs(nEnd) - n; if(nBetween < 0) { n = abs(nEnd); } if(nBetween == 0) nBetween = 10; n += _GetNot0(); return n; } 这样不是更简洁点么?完成的功能是完全一样的。我答:把每句话尽量简化,简化到大家看起来一目了然的时候,程序就不容易出错。你的方案,一句话里面有多个计算,很绕。不是每个项目成员都有你的水平的。
网友问:再比如,你的 GetType和GetRandomType这2个函数,完全可以结合成一个嘛。 char GetType(int nTypeIndex) //输入参数0~10000 { return m_cTokenPercentArrayAreaUp[GetRandomBetween(0,10000)]; } 注意,这里的GetRandomBetween(0,10000)返回范围,就是0-9999. 这样不是简单多了?我答:看下面,是故意拆分的,留两个api,给别人一个中间查表的切入点。
网友问:哦。原来是故意拆分的。 网友问:还有一点,为什么程序中,有好多char和short来替代int?这样有什么好处?是为了节约空间么?我认为,char和short在做参数传进传出,或者与int比较时,每次都要扩展为int,还不如直接用int好。在32位系统中,用int最快了。 只是自己的一些看法,有说的不对的,我们互相学习。我答:嗯,看在你说出互相学习这句话,我回答你的问题:这段代码之所以写得像你说的这么繁琐,是为了尽可能提供api给使用者用,就是我小弟,他觉得用得方便。因为他是用户。我必须站在用户的需求角度设计api,方便调用。因此,很多稍微复杂一点的api函数,我会尽量拆细,每一步都提供一个函数接口给用户用。用不用在他,但是我尽量给全。
api接口设计,应该站在用户使用方便来设计的。反而是我的构造函数很复杂,是因为这些是我内部动作,我要屏蔽,无须通报外部,这体现高内聚,低耦合的原则。
char和short确实是为了节约空间考虑,因为里面有个10000个单元的大数组,用char是10k,用int是40k。
网友问:这么考虑的话也可以。我感觉在这种情况的话,用unsigned char会不会更好?我答:我预设100个类型,<127,char的正数范围足以。
网友问:我倒是感觉这次的需求这么简单,没必要给更多的中间接口。设计以需求为目标,不是程序员觉的客户怎么方便怎么设计,有很多接口,客户也许根本用不到。反而造成不必要的设计,程序复杂度上升。我答:这个算我个人习惯吧,基础模块的公有接口我习惯留得越多越好,越简单越好,最好每个接口一句话。这样,哪天有新需求,省的我改接口。因为这类基础模块的使用者,通常就是我团队成员,大家这么做也习惯了。不过,对外的接口,还是应该越少越好,这是原则,比如功能层向业务层输出的接口,和其他小组的接口,暴露越少越好。不同的需求导致不同的设计。
最后再补充一点,你有想过这个程序的效率没有?它用查表法,你可以和普通计算法比较一下,每个都跑个1000万次,你就看出时间差别了。而且,它不用锁,并行环境和串行环境效率一样高。
网友问:查表法肯定比每次都计算省时间。但第一次构造要花时间,而且牺牲一部分空间。就你这次的实现来看,用查表法是对的。我答:实话跟你讲吧,这段代码是有前提的,我们要做5000万条记录,中间有20万个设备的记录,每个设备的采样频率不一样,我要并发模拟,你再想想我写这么复杂有道理没?
最后,还有网友反映,构造函数太复杂,看不懂,我这里也解释一下。当时情况比较急,小弟赶着用,我也没时间精雕细琢这个代码,所以,构造函数写得就很复杂,基本上想到哪写到哪。
这个函数的设计,并不符合《0bug-C/C++商用工程之道》第三章的“C/C++无错化设计原则”,所以看起来就难懂。看见没,只要不符合这个原则,只要一个函数内有多个循环主体,即多个逻辑意思,大家看起来就混乱。 希望大家以后开发引以为戒,尽量还是写简单的程序。