趣谈Linux2

总览

进程管理

fork 分支

创建进程的系统调用叫fork，意为分支
在Linux中，要创建一个新的进程，需要一个老的进程调用fork来实现
- 其中老的进程叫做父进程
- 新的进程叫做子进程
一个进程的运行是要有一个程序的
当父进程调用 fork 创建进程的时候，子进程将各个子系统为父进程创建的数据结构也全部拷贝了一份，甚至连程序代码也是拷贝过来的。
如果不进行特殊的处理，父进程和子进程都按相同的程序代码进行下去，这样就没有意义了。
对于 fork 系统调用的返回值，如果当前进程是子进程，就返回 0；如果当前进程是父进程，就返回子进程的进程号。

execve 运行新二进制文件

这样fork在返回值这里就有了一个区分，然后通过 if-else 语句判断，如果是父进程，还接着做原来应该做的事情；如果是子进程，需要请求另一个系统调用execve来执行另一个程序，这个时候，子进程和父进程就彻底分道扬镳了，也即产生了一个分支（fork）了

waitpid 等待子进程结束

有个系统调用waitpid，父进程可以调用它，将子进程的进程号作为参数传给它，这样父进程就知道子进程运行完了没有，成功与否。

内存管理

进程内存空间

在操作系统中，每个进程都有自己的内存，互相之间不干扰，有独立的进程内存空间

代码段

对于进程的内存空间来讲，放程序代码的这部分，我们称为代码段（Code Segment）

数据段

对于进程的内存空间来讲，放置进程运行中产生数据的这部分，我们称为数据段（Data Segment）
- 其中局部变量的部分，在当前函数执行的时候起作用，当进入另一个函数时，这个变量就释放了；
- 也有动态分配的，会较长时间保存，指明才销毁的，这部分称为堆（Heap）。
每个进程看到的内存都是从0开始
只有进程要去使用部分内存的时候，才会使用内存管理的系统调用来登记，说自己马上就要用了，希望分配一部分内存给它，但是这还不代表真的就对应到了物理内存。
只有真的写入数据的时候，发现没有对应物理内存，才会触发一个中断，现分配物理内存。

brk和mmap

两个在堆里面分配内存的系统调用，brk和mmap
- 当分配的内存数量比较小的时候，使用 brk，会和原来的堆的数据连在一起
- 当分配的内存数量比较大的时候，使用 mmap，会重新划分一块区域

文件管理

文件操作中六个最重要的系统调用

open和close
- 对于已经有的文件，可以使用open打开这个文件，close关闭这个文件；
creat
- 对于没有的文件，可以使用creat创建文件；
lseek
- 打开文件以后，可以使用lseek跳到文件的某个位置；
read和write
- 可以对文件的内容进行读写，读的系统调用是read，写是write。

Linux 里有一个特点，那就是一切皆文件。

启动一个进程，需要一个程序文件，这是一个二进制文件。
启动的时候，要加载一些配置文件，例如 yml、properties 等，这是文本文件；
启动之后会打印一些日志，如果写到硬盘上，也是文本文件。
但是如果我想把日志打印到交互控制台上，在命令行上唰唰地打印出来，这其实也是一个文件，是标准输出stdout 文件
这个进程的输出可以作为另一个进程的输入，这种方式称为管道，管道也是一个文件
进程可以通过网络和其他进程进行通信，建立的Socket，也是一个文件
进程需要访问外部设备，设备也是一个文件。
文件都被存储在文件夹里面，其实文件夹也是一个文件。
进程运行起来，要想看到进程运行的情况，会在 /proc 下面有对应的进程号，还是一系列文件。

每个文件，Linux 都会分配一个文件描述符（File Descriptor），这是一个整数。

有了这个文件描述符，我们就可以使用系统调用，查看或者干预进程运行的方方面面。

文件操作是贯穿始终的，这也是“一切皆文件”的优势，就是统一了操作的入口

信号处理

经常遇到的信号有以下几种

在执行一个程序的时候，在键盘输入“CTRL+C”，这就是中断的信号，正在执行的命令就会中止退出；
如果非法访问内存，例如你跑到别人的会议室，可能会看到不该看的东西
硬件故障，设备出了问题
用户进程通过kill函数，将一个用户信号发送给另一个进程

进程管理收到信号的时候，需要决定如何处理这些异常情况

对于一些不严重的信号，可以忽略
像 SIGKILL（用于终止一个进程的信号）和 SIGSTOP（用于中止一个进程的信号）是不能忽略的，可以执行对于该信号的默认动作
每种信号都定义了默认的动作，例如硬件故障，默认终止；
也可以提供信号处理函数，可以通过sigaction系统调用，注册一个信号处理函数。

进程间通信

进程比较大的时候，可能会分成多个进程，进程间需要进行通信

首先就是发个消息，不需要一段很长的数据，这种方式称为消息队列（Message Queue）。

消息队列是在内核里的
msgget创建一个新的队列
msgsnd将消息发送到消息队列
消息接收方可以使用msgrcv从队列中取消息。

当两个进程需要交互的信息比较大的时候，可以使用共享内存的方式

这时候可以通过shmget创建一个共享内存块
通过shmat将共享内存映射到自己的内存空间，然后就可以读写了。
当两个进程同时修改同一个数据时，需要有一种方式，让不同的人能够排他地访问，这就是信号量的机制Semaphore。
- 对于只允许一个人访问的需求，我们可以将信号量设为 1。
- 当一个人要访问的时候，先调用sem_wait。如果这时候没有人访问，则占用这个信号量，他就可以开始访问了。
- 如果这个时候另一个人要访问，也会调用 sem_wait。由于前一个人已经在访问了，所以后面这个人就必须等待上一个人访问完之后才能访问
- 当上一个人访问完毕后，会调用sem_post将信号量释放，于是下一个人等待结束，可以访问这个资源了。

网络通信

当一台Linux要与另一台Linux交流，就需要用到网络服务
不同机器的通过网络相互通信，要遵循相同的网络协议，也即TCP/IP 网络协议栈
Linux 内核里有对于网络协议栈的实现
网络服务是通过套接字 Socket 来提供服务的，在通信之前，双方都要建立一个 Socket。
可以通过 Socket 系统调用建立一个 Socket。Socket 也是一个文件，也有一个文件描述符，也可以通过读写函数进行通信。

查看源代码中的系统调用

Glibc

为了对用户更友好，我们还可以使用中介Glibc，有事情找它就行，它会转换成为系统调用，帮你调用
Glibc 是 Linux 下使用的开源的标准 C 库，它是 GNU 发布的 libc 库。
Glibc 为程序员提供丰富的 API，除了例如字符串处理、数学运算等用户态服务之外，最重要的是封装了操作系统提供的系统服务，即系统调用的封装。
每个特定的系统调用对应了至少一个 Glibc 封装的库函数
- 比如说，系统提供的打开文件系统调用 sys_open 对应的是 Glibc 中的 open 函数。
Glibc 一个单独的 API 可能调用多个系统调用
- 比如说，Glibc 提供的 printf 函数就会调用如 sys_open、sys_mmap、sys_write、sys_close 等等系统调用。
多个 API 也可能只对应同一个系统调用
- 如 Glibc 下实现的 malloc、calloc、free 等函数用来分配和释放内存，都利用了内核的 sys_brk 的系统调用