电脑基础 · 2023年3月1日

【linux】:进程概念

文章目录

  • 冯诺依曼体系结构
  • 一:操作系统
  • 二:  进程
  • 总结

冯诺依曼体系结构

我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系。

冯诺依曼体系如下图:

7cf84eab1fc746adb53c6175fa2a21f6.png

那么输入设备有哪些呢?如键盘,鼠标,话筒,摄像头,磁盘等。

存储器就是我们经常说的内存了。

输出设备有网卡,声卡,音响等。

cpu含有运算器和控制器等。

那么为什么冯诺依曼要有内存呢?直接让输入设备连接cpu到输出设备不是更方便吗,大家看如果是下面这个体系怎么样?

743256ce086548b48f10b06dcb04e626.png

首先这样的体系是没问题的,可以直接让输入设备直接和cpu沟通,但问题在于cpu的运行速度非常快,而输入设备和输出设备都属于外设,外设一般都会比较慢,就比如磁盘和内存的比较,磁盘如果将数据存入会一直存在,而内存是一种掉电易失的介质如果你使用的电脑台式电脑突然停电关机了那么内存里的数据就没有了,但是相对于磁盘,内存的速度比较快。冯诺依曼体系之所以让外设与内存沟通是因为要防止木桶原理,cpu的算力太快了是外设远远比不上的,而有内存的存在就可以大大的缓解木桶原理带来的效率慢的问题。因为有了内存的存在,我们可以对数据进行预加载,CPU以后在进行数据计算的时候,根本就不需要访问外设了,而只要直接伸手向内存要就可以了。

结论一:在数据层面,一般CPU不和外设直接沟通,而是直接只和内存沟通。这也就回答了为什么我们的程序必须先被加载到内存中,因为这是体系结构决定的。

那么在硬件层面,单机和跨主机之间数据是如何流向的呢?看下图:

4ec1545f9b1b4728ac8ddc1f2ff35576.png

举个例子:比如我们用qq给别人发送消息,先从键盘输入要发送的消息,然后将数据经过内存被CPU运行后再回到内存然后将数据交给输出设备,这个时候给别人发消息的那个人的屏幕会先显示出发送的消息,然后经过网络等到接收消息的人的输入设备然后经过内存,cpu然后显示到对方的屏幕上。 


一、操作系统

操作系统是进行软硬件资源管理软件的。任何一个计算机系统都包含一个基本的程序集合,称为操作系统(OS),笼统的理解,操作系统包括:内核(进程管理,内存管理,文件管理,驱动管理),其他程序(例如函数库,shell程序等等)

那么如何理解操作系统对硬件做管理呢?我们举个例子:就比如学生,是谁在管理学生呢,当然是校长在管理学生了,校长主要是决策,辅导员主要是去执行校长做出的决策,而学生是参与执行的对象,在校长管理期间,校长只需要向各级领导发放指令管理学生,而不会直接和学生沟通管理。所以我们得出以下结论:1.管理者和被管理者其实是不需要直接沟通的。

2.管理的本质:对被管理的对象的数据进行管理

3.用什么管理呢?数据结构。

管理的本质就是先描述,在组织。就像各个不同的程序,先将这些程序描述为一个个的结构体,然后以链表的形式进行对单个节点的修改也就是管理。

而像我们刚刚举得学生的例子中,校长就是操作系统,辅导员就是硬件驱动,学生就是硬件或软件。

那么操作系统为什么对软硬件资源进行管理呢?操作系统对下通过管理好软硬件资源(手段),对上给用户提供良好(安全,稳定,高效,功能丰富)的执行环境(目的)。

那么操作系统是如何给用户提供良好的执行环境的呢?操作系统通过暴露出一些系统接口供用户操作使用,这里就好比银行一样,银行为人们服务是窗口式服务,像金库等一些重要的地方是不会对用户进行开放的,而开放的地方也会用窗口封装起来避免遭到破坏,所以操作系统是不会相信任何一个用户的,它只是暴露出一些可以供用户使用的接口去使用,同时还要保证操作系统内部的安全,所以这些接口是经过一层又一层的封装,而这些由操作系统提供的接口又被称为系统调用。

系统调用在使用上,功能比较基础,对用户的要求相对也比较高,所以有心的开发者可以对部分系统调用进行适度封装,从而形成库,有了库,就很利于更上层用户或者开发者进行二次开发。

二、进程

我们现在大多数人都接触过电脑,那么我们以windows为例,windows中的进程是什么样的呢,大家看下图:

3c41ec7b57d641a6b64b097e081e83c0.png

 因为windows是图形化操作的所以这些进程看起来非常生动形象。那么这些进程该如何去理解呢?

首先,我们以前的任何启动并运行程序的行为,都是由操作系统帮助我们将程序转化为进程完成特定的任务。

如下图:

87e683ec700e47baa6d6473871ab618f.png

首先我们要运行一个程序,这个程序保存在磁盘中,当双击运行就把这个程序的代码和数据加载到内存中,每加载一个程序的代码和数据操作系统都会将这个程序的代码和程序用pcb/task_struct保存起来,并且将这些程序的代码和数据连接起来像链表一样进行控制,用户想要优先使用哪个软件就将这个软件的pcb/task_struct加载到CPU中进行运行,所以对于进程的管理就转化为了对pcb/task_struck进行链表的增删查改。进程不是内存中的代码和数据,进程是代码和数据加该进程在内核中加载的pcb/task_struct合起来。

结论:进程 = 内核关于进程的相关数据结构 + 当前进程的代码和数据

描述进程-PCB:进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。课本上称之为PCB,linux操作系统下的PCB是task_struck

为什么要有pcb呢?我们前面说过操作系统管理的本质是先描述在组织,而进程的描述就是靠pcb。

task_struck内容分类

标识符:描述本进程的唯一标识符,用来区别其他进程。

状态:任务状态,退出代码,退出信号等

优先级:相对于其他进程的优先级

程序计数器:程序中即将被执行的下一条指令的地址

内存指针:包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针。

上下文数据:进程执行时处理器的寄存器中的数据

I/O状态信息:包括显示的I\O请求,分配给进程的I\O设备和被进程使用的文件列表。

记账信息:可能包括处理器的时间总和,使用的时钟数总和,时间限制,记账号等

其他信息。

下面我们在linux系统下演示进程的存在:

首先创建一个.c文件用来写一个死循环程序,这样方便我们看到进程:

30a751a0541c4af48b261293756a51d5.png

然后我们创建一个并写出一个一个简单的Makefile文件:

551b5d7594d44a3f8e959988606ced59.png 文件中冒号的左边依赖于冒号的右边,也就是说没有process依赖于myprocess.c,gcc - o中的$@符号是指冒号左边的文件,$^是指冒号右边的文件。

55987f4d764d4703b55a19da3563375d.png

 然后我们写了一个简单的死循环代码,现在开始运行。

5ad5055c509a477f8b779a49431be79d.png

现在这个可执行程序已经跑起来了,根据我们上面所讲的,先将代码和数据加载到内存,然后变成一个task_struct,这就变成一个进程了,那么怎么看到这个进程呢?先复制一个会话,在新会话中用ps axj命令可以查看所有的进程,然后我们利用管道来过滤只想看我的进程。

392d5350ad554e3da4d6b098922933d4.png

 然后我们再利用管道head -1查看第一行

a3281b20d29d4d7da795da041e1fb6a0.png

然后我们利用逻辑与拿到我们进程的信息:

a53902410dcf47df94de31ad5c3c2220.png 这个时候我们就拿到了进程的属性,最后一行的grep是什么呢?这是因为我们利用grep去过滤进程,而grep本身也是一个进程,所以进程中可以看到grep,那么如果我们不想看到grep该怎么操作呢?只需要在刚刚的命令下多加一个管道grep -v grep就过滤掉grep这个进程了。

028fb5b955714c1683653a93a81a9f9e.png

b71bec0d2b104ad0a38cf318b1fc970c.png 我们在开一个会话运行这个死循环程序,然后看看他们的进程属性。

e3faddcb9ffd429c9c110b2e9af84488.png

这个时候我们就能看到有两个myprocess可执行程序他们两个很明显是两个不同的进程,任何一个进程都有自己的pid,除了上面这种查看进程的方式,我们还有在系统根目录查看进程的方式:

b3a9cc8b6e394201bca9a81596d6f091.png proc就是进程的缩写,图中红色就是刚刚我们所查看的进程在根目录下显示的情况

702321a6187445c49327b2d4b3576b63.png

 我们利用访问文件的方式去查看新增的进程的属性:

c60741ec7b5348458149ef7b1630d87e.png

接下来我们将进程用ctrl+c终止了。

d48a79d11bf8485297d2126c5ab04230.png 当我们将程序结束后就看不到相对应的进程了。

刚刚我们看到了进程对应的pid,那么我们能不能在写程序的时候就获取到pid呢?答案是可以的,我们可以用getpid()函数来获取pid。

9bd489ad416045e3a81bc84f2b1b45d2.png

 因为getpid()这个函数所需要包含的头文件为#include <unistd.h>  和 #include <sys/types.h>所以我们多加了这个头文件,那么我们来运行一下。注意:修改.c文件后切记make clean一下然后再重新make生成可执行程序。

d46bd1c9e03b42aa837370fe9b544950.png

 可以看到我们获取到了pid,现在去验证一个是否正确。

0108a467341145d8acf01384ecd62dc5.png

 很明显是正确的,之前我们就看到了pid旁边的ppid那么ppid是什么呢?ppid其实是这个进程的父进程,每个进程都会有子进程和父进程,下面我们以同样的方式获取一下父进程的pid:

9d768c9be74a4b698ec222b95aea0730.png

3c58d89d8d7b4c6d80165c08f3698319.png

c61f175308d04c4ea3e3d99cedcbf302.png

 进过验证我们也能发现是正确的。然后我们再重新运行一下程序:

2010fd79e8b74e5dac7ef913b4c2504f.png

这个时候我们发现子进程变了但是父进程还是刚刚的15611这是什么原因呢?那么我们就去查查这个父进程是什么:

9e91fec147fc4a9fb7051497d4cd509a.png279b77fc86df41db941d9d70431c6a47.png

 通过检查我们发现父进程竟然是bash。bash是命令行解释器,bash本质上也是一个进程,因为bash有独立的pid。接下来我们得出结论:

1.命令行启动的所有的程序,最终都会变成进程,而该进程对应的父进程都是bash。

刚刚我们采用的都是ctrl + c的方式结束程序,现在我们用命令的方式去结束,kill -9 +pid就能杀掉一个进程。

7785fca9a97e46b0a63206d4562f0548.png

e5e10ecea4424eaeb74ddc926a776809.png

ac2d76240b17426d8a26a4279f94c553.png 我们可以看到确实将刚刚运行的程序结束了,那么如果杀掉了bash会怎么样呢?

如果我们直接杀掉了bash,那么命令行编辑器就会崩溃我们就无法继续输入命令只能先关闭xshell重新连接才可以。

接下来我们演示一下如何创建一个子进程:

创建子进程我们需要使用fork函数,先来看一下fork函数的使用规则:

55f24046393c427f8bcf2e31f383c4b7.png

3fbe9678f94f42dcaf2cd1a8724ebcbe.png 我们可以看到fork的作用是创建一个子进程,头文件是#include <unistd.h>。

fork的返回值是给父进程返回子进程pid,给子进程返回对应的0值

我们先讲刚刚myprocess.c里的代码先批量化注释掉,如何批量化注释呢?首先在命令模式下按ctrl v 左下角出现V,然后用HJKL四个方向键选出要注释的区域,然后切换为大写,再输入i然后输入//,然后ESC退出即可。

那么如何取消注释呢?直接输入方式切换为小写,然后u一下。当然我们也可以继续使用批量化取消注释的方法,先在命令模式下ctrl v,然后L选择区域,然后直接输入d就能取消注释了。

eecab6d2998b4ea0bb9bfa0f11186d5e.png

55d0b5da6e0e4bd6b76fa26038d510d9.png 首先上图中我们用fork创建了一个子进程,本来这个程序应该只有一个进程由于fork的存在从两行打印变成3行打印,并且创建出来的子进程的pid和ppid都与A完全一样。因为fork的返回值是给父进程返回子进程的pid,所以通过上图我们可以看到ret是22431这是子进程的pid,22431的父进程就是22430了。而给子进程返回0值也可以看到22431这个子进程的ret确实为0。那么为什么一个函数会有两个返回值呢?下面我们用一个程序来解释为什么:

262cb83ed27748f08dc738fdd4a56aac.png

注意:1.fork之后,执行流会变成两个执行流

2.fork之后,谁先运行由调度器决定

3.fork之后,fork之后的代码共享,通常我们通过if和else if来执行分流。

6b0f7943c3e1411087e8173699908526.png

 再说返回值的问题先来说一下fork做了什么,如下图:

550eddbad9864ce7847e03dd58a94dd8.png

 我们很清楚程序运行后会将代码和数据加载到内存中,然后操作系统会将这些描述为task_struct结构体,父进程有自己的PCB和代码和数据,而当我们创建子进程的时候,会在内核当中再创建一个进程所对应的PCB,与父进程不同的是操作系统会修改子进程的一些数据比如pid和ppid,但是这两个PCB都指向一份代码和数据。而进程在运行的时候是具有独立性的,父子进程也同样具有独立性,比如下面我们将一个进程杀掉那么另外的进程还会继续运行:

c393edd517ab4484b9314797f258b968.png

df7710d6bf814fd391dfc44ea1345590.png 0ebc124f671b49e39a7b01aa9fe208f5.png

从上图中我们可以看到当我们杀死子进程时父进程还会继续运行,这就证明了进程具有独立性。

刚刚我们说过父子进程指向同一份代码和数据,那么为什么子进程都结束了父进程的代码和数据不受影响呢?因为对于代码来说代码是只读的,而数据中当有一个执行流尝试修改数据的时候,OS会自动给我们当前进程触发写时拷贝。

当我们函数内部准备执行return的时候,我们的主体功能已经完成,所以执行return的时候由于return也是一个语句,父子进程都会执行这个语句所以才会出现两个返回值,而由于写时拷贝所以能接收到两个返回值。

总结

以上只是linux中关于进程的一小部分,下一篇将持续更新linux进程的概念

要去了解进程应该先了解冯诺依曼体系结构以及操作系统,这样我们在学习进程的时候有一些看不懂的东西才能弄明白,同时进程这部分概念较多所以需要大家理解概念后尝试去通过代码证明概念的正确性,这样才能深入的理解进程。